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小 范 从 本 科 毕 业 设计 开始 写 编译 硕 的 实现 代码 ， 为 他 选择 这 个 题 
目的 初衷 是 希望 把 编译 系统 与 操作 系统 、 计 算 机 体系 结构 相关 的 结合 
扩 找 出 来 、 弄 清楚 ， 为 教学 提供 可 用 的 实例 。 本 科 毕 业 设 计 结 束 时 小 
范 完 成 了 一 个 最 位 单 的 C 语 言 子 集 的 编译 侨 ， 生 成 的 汇编 程序 经 过 汇 
编 和 链接 后 可 以 正确 执行 。 人 研 完 生 期 间 我 们 决定 继续 编译 系统 实现 技 
术 方 向 的 研究 工作 ， 主 要 完成 汇编 右 和 链接 絮 这 两 大 模块 。 小 范 用 一 
蜂 好 奇 、 求 知 的 心 指引 目 己 ， 利 用 一 切 可 以 搜集 到 的 资料 ， 用 “日 拱 一 
蔡 ” 的 劲头 一 步 一 步 接近 目标 。 每 天 的 日 子 都 可 能 有 不 同 的 “干扰 一 一 
名 企 的 实习 、 发 论文 、 做 项 目 、 参 加 竞赛 、 考 认证 ， 身 边 的 同学 在 快 
速 积 攒 各 种 经 历 和 成 果 的 时 候 ， 小 施 要 保持 内 心 的 平静 ， 专 注 于 工作 
量 巨 大 而 是 否 有 回报 还 未 曾 可 知 的 事情 。 三 年 的 时 间 里 ， 没 有 奖 学 
金 ， 没 有 项 目 经 费 ， 有 的 是 没完 没 了 的 各 种 问题 ， 各 种 要 看 的 书 、 资 
料 和 要 完成 的 代码 ， 同 时 还 要 关注 大 数据 平台 、 编 程 语言 等 新 撤 术 的 
发 展 。 


“汇编 套 完 成 了 ”链接 硕 完 成 了 ”， 好 消息 接 题 而 至 。 小 范 说 , “把 
编译 需 的 代码 重 写 一 下 ， 加 上 代码 优化 吧 ? "我 说 “好 ”， 其 实 ， 这 
个 “好 ”说 起 来 容易 ， 而 小 范 那里 增加 的 工作 量 可 想 而 知 ， 这 绝 不 是 那 
么 轻松 的 事情 。 优 化 的 基本 原理 有 了 ， 怎 么 设计 算法 来 实现 呢 ? 整个 


编译 事 的 文法 比 本 科 毕 业 设 计时 扩充 了 很 多 。 编 译 紫 重 写 、 增 加 代码 
优化 模块 、 完 成 汇编 器 和 链接 器 ， 难 度 和 工作 量 可 想 而 知 。 每 当 小 范 
解决 一 个 问题 ， 完 成 一 个 功能 ， 束 会 非 第 开心 地 与 我 分 诗 。 看 小 范 完 
成 的 一 行 行规 范 、 漂 腕 的 代码 ， 听 他 兴奋 地 讲解 ， 很 难说 与 昕 即 衣 的 
钢 姥 协奏曲 《黄河 之 子 》、 德 沃 夏 克 的 《 目 新 大 陆 》 比 哪 一 个 更 令 人 
陶醉 ， 与 听 交 了 啊 曲 《 咱 达 梅林 》 比 哪 一 个 更 令 人 震撼 。 当 小 范 完 成 链 
接 郁 后 ， 我 说 : “小 范 ， 写 书 吧 ， 不 写 下 来 太 可 惜 了 。? 吕 这 样 ， 小 苑 
再 次 如 一 辆 轿 新 的 流 甲 车 ， 航 隆 前 行 ， 踏 上 了 笔耕 不 辍 的 征程 。2015 
年 署 假 ， 细 读 和 修改 这 部 30 多 万 字 的 书稿 ， 感 慨 万 千 ， 完 成 编译 系统 
的 工作 量 、 四 年 的 甘 震 与共、 超然 物 外 的 孤独 都 在 这 字里行间 跳跃 。 
写 完 这 部 原创 书 对 一 个 年 轻 学 生来 说 是 极 富 挑 战 的 ， 但 是 他 完成 了 ， 
而 且 完 成 得 如 此 精致 用心。 


小 范 来 目 安徽 的 农村 ， 面 对 生活 中 的 各 种 困惑 、 困 难 ， 他 很 少 有 
诅 形 、 悲 观 的 情绪 ， 永 远 有 天 然 的 好 奇 心 ， 保 留 痢 瑞 童 的 天 真 、 快 乐 
与 坦率 。 他 开始 写本 书 时 23 多 ， 完 成 全 书 的 初稿 时 25 多 。 写 编译 系统 
和 操作 系统 内 核 并 非 难以 企及 ， 只 是 需要 一 份 淡 然 、 专 注 和 坚持 。 


如 有 果 你 想 了 解 计算 机 十 如 何 工作 的 ， 为 什么 程序 会 出 现 不 可 思议 
的 错误 ”高 级 语言 程序 是 如 何 被 翻译 成 机 翰 语 言 代码 的 ? 编译 右 在 程 
序 的 优化 方面 能 做 哪些 工作 ? 软件 和 硬件 是 怎么 结合 工作 的 ? 各 种 复 
杂 的 数据 结构 和 算法 ， 包 括 图 论 在 实现 编译 系统 时 如 何 应 用 ? 有 限 目 


动机 在 词法 分 析 中 的 作用 是 什么 ? 其 程序 又 如 何 实现 ? 那么 本 书 可 以 
满足 你 的 好 奇 心 和 求知 欲 。 如 何 实现 编译 系统 ”如 何 实 现 编译 器 ? 如 
何 实现 汇编 右 ? 如 何 使 用 符号 表 ? 如 何 结合 操作 系统 加 载 絮 的 需要 实 
现 链接 右 ? Intel 的 指令 是 如 何 构 成 的 ? 如 何 实现 不 同 的 编译 优化 算 

法 ? 对 这 些 问题 ， 本 书 结合 作者 实现 的 代码 实例 进行 了 详尽 的 阐述 ， 
对 提高 程序 员 的 专业 素质 有 实际 的 助 益 ， 同 时 本 书 也 可 以 作为 计算 机 
科学 相关 专业 教师 的 参考 书 和 编译 原理 实习 类 课程 的 教材 。 


2013 年 在 新 疆 参 加 全 国 操 作 系统 和 组 成 原理 教学 研讨 会 时 ， 我 市 
着 打印 出 来 的 两 章 书稿 给 了 机 械 工业 出 版 社 的 温 莉 芳 老 师 ， 与 她 探讨 
这 本 书 出 版 的 意义 和 可 行 性 ， 她 给 了 我 们 很 大 的 或 励 和 支持 ， 促 成 了 
本 书 的 完成 。 在 此 ， 特 别 感谢 温 莉 廊 老 师 。 


本 书 的 责任 编辑 余 洗 老师 与 作者 反复 沟通 ， 对 本 书 进行 了 认真 、 
耐心 的 编辑 ， 感 谢 她 的 笠 勤 付出 。 


中 国 石 油 大 学 (华东 ) 的 李 村 合 老师 在 编译 器 设计 的 初期 给 予 了 
我 们 指导 和 建议 。 马 力 老 师 在 繁忙 的 工作 之 余 ， 认 真 审阅 书稿 ， 给 出 
了 详细 的 修改 意见 。 王 小 云 、 程 坚 、 梁 红 卫 、 万 水文 老师 对 本 书 提出 
了 他 们 的 意见 ， 并 给 出 了 认真 的 评价 。 赵 国 梁 同学 对 书 中 的 代码 和 文 
字 做 了 细心 的 校对 。 在 此 ， 对 他 们 表示 衷心 的 感谢 。 最 后 要 感谢 小 苑 
勤 施 、 坚 地 的 爸爸 妈妈 ， 是 他 们 一 直 给 予 他 无 私 的 文 择 和 持续 的 圾 
励 。 


感恩 所 有 给 予 我们 帮助 和 或 励 的 老师 、 同 学 和 朋友 ! 


张 珠 声 


2016 年 春 于 北京 


本 书 适 合 谁 庶 


本 书 是 一 本 描述 编译 系统 实现 的 书籍 。 这 里 使 用 “编译 系统 ”一 
词 ， 主 要 是 为 了 与 市 面 上 描述 编译 需 实 现 的 书籍 进行 区 分 。 本 书 描述 
的 编译 系统 不 仅 包含 编译 硕 的 实现 ， 还 包括 汇编 厚 、 链 接 吉 的 实现 ， 
以 及 机 器 指令 与 可 执行 文件 格式 的 知识 。 因 此 ， 本 书 使 用 “编译 系 
统 ” 一 词 作为 编译 右 、 汇 编 器 和 链接 右 的 统称 。 


本 书 的 目的 是 希望 读者 能 通过 阅读 本 书 清晰 地 认识 编译 系统 的 工 
作 流 程 ， 并 能 目 己 笑 试 构造 一 个 完整 的 编译 系统 。 为 了 使 读者 更 容易 
理解 和 学 习 编 译 系 统 的 构造 方法 ， 本 书 将 描述 的 重点 放 在 编译 系统 的 
关键 流程 上 ， 并 对 工业 化 编译 系统 的 实现 做 了 适当 的 们 化。 如 末 读 者 
对 编译 系统 实现 的 内 医 感 兴趣 ， 或 者 想 目 己 动 手 实现 一 个 编译 系统 的 
话 ， 本 书 将 非常 适合 你 阅读 。 


阅读 本 书 ， 你 会 发 现 书 中 的 内 容 与 传统 的 编译 原理 教材 以 及 摘 述 
编译 事实 现 的 书籍 有 所 不 同 。 本 书 除了 搬 述 一 个 编译 絮 的 具体 实现 
外 ， 还 描述 了 一 般 书 籍 较 少 涉及 的 汇编 古 和 链接 需 的 具体 实现 。 而 且 
本 书 并 非 * 纸 上 谈 兵 "， 在 讲述 每 个 功能 模块 时 ， 书 中 都 会 结合 具体 实 


现代 码 来 前 述 模块 功能 的 实现 。 通 过 本 书 读者 将 会 学 习 如 何 使 用 有 限 
目 动 机 构造 词法 分 析 器 ， 如 何 将 文法 分 析 算 法 应 用 到 语法 分 析 过 程 ， 
如 何 使 用 数据 流 分 析 进 行 中 间 代 码 的 优化 ， 如 何 生成 合法 的 汇编 代 
码 ， 如 何 产 生 二 进 制 指令 信息 ， 如 何在 链接 器 内 进行 符号 解析 和 重 定 
位 ， 如 何 生成 目标 文件 和 可 执行 文件 等 。 


本 书 的 宗旨 是 为 意欲 了 解 或 亲自 实现 编译 系统 的 读者 提供 指导 和 
帮助 。 尤 其 是 计算 机 专业 的 读者 ， 通 过 目 己 动手 写 出 一 个 编译 系统 ， 
能 加 强 读者 对 计算 机 系统 从 软件 层次 到 硬件 层次 的 理解 。 同 时 ， 深 入 
挖 据 技 术 莫 后 的 秘密 也 是 对 专业 兴趣 的 一 种 民 好 培养 。GCC 本 里 是 一 
套 非 常 完善 的 工业 化 编译 系统 (虽然 我 们 习惯 上 称 它 为 编译 器 ) ， 然 
而 单 任 个 人 之 力 无 法 做 到 像 GCC 这 样 完 善 ， 而 且 很 多 时 候 是 没有 必要 
做 出 一 个 工程 化 的 编译 器 的 。 本 书 试图 帮助 读者 深入 理解 编译 的 过 
程 ， 并 能 按照 书 中 的 指导 实现 一 个 能 正常 工作 的 编译 器 。 在 目 己 亲 目 
动手 实现 一 个 编译 系统 的 过 程 中 ， 读 者 获得 的 不 仅仅 是 软件 开发 的 经 
历 。 在 开发 编译 系统 的 过 程 中 ， 读 者 还 会 学 习 很 多 与 确 层 相关 的 知 
识 ， 而 这 些 知识 在 一 般 的 专业 教材 中 很 少 涉及 。 


如 果 读 者 想 了 解 计算 机 程序 克 层 工作 的 奥秘 ， 本 书 能 够 解答 你 内 
心 的 疑惑 。 如 有 果 读 者 想 目 定义 一 种 高 级 语言 ， 并 希望 使 该 语言 的 程序 
在 计算 机 上 正常 运行 ， 本 书 能 帮助 你 较 快 地 达到 目的 。 如 采 读 者 想 从 


实现 一 个 编译 右 的 过 程 中 ， 加 强 对 编译 系统 工作 流程 的 理解 ， 并 答 试 
深入 研究 GCC 源码 ， 本 书 也 能 为 你 提供 很 多 有 价值 的 参考 。 


基础 知识 储备 


本 书 尽 可 能 地 不 要 求 读者 有 太 多 的 基础 知识 准备 ， 但 是 编译 理论 
属于 计算 机 学 科比 较 深层 次 的 知识 领域 ,难免 对 读者 的 知识 储备 有 所 
要 求 。 本 书 的 编译 系统 是 基于 Linux x86 平 台 实现 的 ， 因 此 要 求 读 者 对 
Linux 环 境 的 C/C++ 编程 有 所 了 解 。 男 外， 理解 汇编 器 的 实现 内 容 需 要 
读者 对 x86 的 让 编 指令 编程 比较 熟悉 。 本 书 不 会 描述 过 多 编译 原理 教材 
中 涉及 的 内 容 ， 所 以 要 求 读 者 具备 编译 原理 的 基础 知识 。 不 过 读者 不 
必 过 于 担心 ， 本 书 会 按照 循序 渐进 的 方式 描述 编译 系统 的 实现 ， 在 具 
体 的 章节 中 会 将 编译 系统 实现 的 每 个 细 市 以 及 所 需 的 知识 曾 述 清楚 。 


本 书 共 7 章 ， 各 章 的 主要 内 容 分 别 如 下 。 
第 1 章 ”代码 背后 


从 程序 设计 开始 ， 妃 漳 代 码 育 后 的 细节， 引出 编译 系统 的 概念 。 


第 2 草编 译 系统 设计 


按照 编译 系统 的 工作 流程 ， 介 绍 本 书 编译 系统 的 设计 结构 。 


描述 如 何 使 用 有 限 目 动机 识别 目 定义 高 级 语言 的 词法 记号 ， 如 何 
使 用 文法 分 析 算 法 识别 程序 的 语法 模块 ， 如 何 对 高 级 语言 上 下 文 相 关 
言 轧 进行 语义 合法 性 检查 ， 如 何 使 用 语法 制导 翻译 进行 代码 生成 ， 以 
及 编译 器 工作 时 符号 信息 的 管理 等 。 


第 4 章 ”编译 优化 


介绍 中 间 代 码 的 设计 和 生成 ， 如 何 利用 数据 流 分 析 实 现 中间 代 但 
优化 ， 如 何 对 变量 进行 寄存 器 分 配 ， 目 标 代 码 生成 阶段 如 何 使 用 客 孔 
优化 器 对 目标 代码 进行 优化 。 

第 5 章 “二进制 表示 


摘 述 Intel x86 指 令 的 基本 格式 ， 并 将 AT&T 汇 编 与 Intel 汇 编 进 行 对 
比 。 描 述 ELF 文 件 的 基本 格式 ， 介 绍 ELF 文 件 的 组 织 和 操作 方法 。 


描述 汇编 万 词 法 分 机 和 语法 分 析 的 实现 ， 介 绍 汇编 吉 如 何 提取 目 
标 文件 的 主要 表 信 息 ， 并 描述 x86 二 进 制 指令 的 输出 方法 。 


介绍 如 何 为 可 重 定位 目标 文件 的 段 进行 地 址 空间 分 配 ， 摘 述 链接 
妖 从 号 解析 的 流程 ， 以 及 符号 地 址 的 计算 方法 ， 并 介绍 重 定位 在 链接 
万 中 的 实现 。 


随 书 源码 


本 书 实现 的 编译 系统 代码 已 经 托管 到 github， 源 码 可 以 使 用 GCC 
5.2.0 编 译 通过 。 代 码 的 github 地 址 是 
https://github.com/fanzhidongyzby/cit 。 代 码 分 支 x86 实 现 了 基于 Intel 
x86 体 系 结构 的 编译 器 、 汇 编 器 和 链接 器 ， 编 译 系 统 生 成 的 目标 文件 和 
可 执行 文件 都 是 Linux 下 标准 的 ELF 文 件 格式 。 代 码 分 支 arm 实 现 了 基 
于 ARM 体 系 结构 的 编译 器 ， 目 前 支持 生成 ARM 7 的 汇编 代码 。 


第 1 革 代码 至 后 
知 其 然 ， 并 知 其 所 以 然 。 


一 一 《朱子 语 类 》 


1.1 从 编程 聊 起 


说 起 编程 ， 如 果 有 人 问 我 们 敲 进 计算 机 的 第 一 段 代 码 是 什么 ， 相 
信 很 多 人 会 说 出 同一 个 答案 一 “Hello World! ”。 编程 语 言 的 教材 一 般 
都 会 把 这 段 代码 作为 书 中 的 第 一 个 例子 呈现 给 读者 。 当 我 们 按照 课本 
或 者 老师 的 要 求 把 它 输入 到 开发 环境 ， 然 后 持 击 “编译 "和 “运行 ”按钮 ， 
映 入 眼帘 的 那 行 字符 串 定 会 令 人 欣喜 不 已 ! 然而 激动 过 后 ， 一 股 强烈 
的 好 奇 心 可 能 会 驱使 我 们 去 弄 清 一 个 新 的 概念 一 一 编译 是 什么 ? 


遗憾 的 是 ， 一 般 教授 编程 语言 的 老师 不 会 介绍 太 多 关于 它 的 内 
容 ， 最 多 会 告诉 我 们 : 代码 只 有 经 过 编译 ， 才 能 在 计算 机 中 正确 执 
行 。 随 独 知识 和 经 鹅 的 不 断 积 累 ， 我 们 逐 汤 了 解 到 当初 单 击 “ 编 译 ” 近 
钮 的 时 候 ， 计 算 机 在 幕后 做 了 一 系列 的 工作 。 它 先 对 源 代码 进行 编 
译 ， 生 成 二 进 制 目 标 文件 ， 然 后 对 目标 文件 进行 链接 ， 最 后 生成 一 个 
可 执行 文件 。 即 便 如 此 ， 我 们 对 编译 的 流程 也 只 有 一 个 模糊 的 认识 。 


所 
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直到 学 习 了 编译 原理 ， 才 发 现 编译 器 原来 就 是 语言 翻译 程序 ， 它 
把 高 级 语言 程序 翻译 成 低级 汇编 语言 程序 。 而 汇编 语言 程序 是 不 能 被 
计算 机 直接 识别 的 ， 必 须 靠 汇编 器 把 它 翻译 为 计算 机 硬件 可 识别 的 机 
器 语言 程序 。 而 根据 之 前 对 目标 文件 和 链接 器 的 了 解 ， 我 们 可 能 猜测 
到 机 瑚 语言 应 该 是 按照 二 进 制 的 形式 存储 在 目标 文件 内 部 的 。 可 十 目 


标 文件 到 底 包 含 什么 ， 链 接 后 的 可 执行 文件 里 又 有 什么 ? 问题 貌似 越 
来 越 多 。 


图 1-1 展 示 了 编译 的 大 致 工作 流程 ， 相 信 拥 有 一 定编 程 经 验 的 人 ， 
对 该 图 所 表达 的 含义 并 不 卫生 。 为 了 让 源 代 码 能 正 营 地 运行 在 计算 机 
上 ， 计 算 机 对 代码 进行 了 “每 复 "的 处 理 。 可 是 ， 编 译 傣 既然 旦 语言 翻 
译 程序 ， 为 什么 不 把 源 代码 直接 翻译 成 机 器 语言 ， 却 还 要 经 过 汇编 和 
链接 的 过 程 呢 ? 


源 代 码 汇编 代码 二 进 制 目标 文件 


人 可 执行 文件 
mm rm 


图 1-1 编译 的 流程 


似乎 我 们 解决 了 一 些 疑 惑 后 ， 总 十 会 有 更 多 的 疑惑 接 是 而 来 。 但 
也 正 是 这 些 层出不穷 的 疑惑 ， 促 使 我 们 不 断 地 探究 简单 问题 至 后 的 复 
杂 机 制 。 当 挖 据 出 这 些 表象 下 禾 盖 的 问题 本 质 时 ， 可 能 比 首 次 项 
出 “Hello World! ”程序 时 还 要 喜悦 。 在 后 面 的 章 世 中 ， 将 会 逐步 探讨 纺 
译 育 后 的 本 质 ， 将 谜团 一 一 揭 开 ， 最 终 读 者 目 己 可 动手 构造 出 本 书 所 
实现 的 编译 系统 一 一 编译 融 、 六 编 右 与 链接 髓 ， 真 正 做 到 “ 知 其 然 ， 并 
知 其 所 以 然 ”。 


1.2 历史 渊源 


历史 上 很 多 新 鲜 事 物 的 出 现 都 不 是 偶然 的 ， 计 算 机 学 科 的 技术 和 
知识 如 此 ， 编 译 系统 也 不 例外 ， 它 的 产生 来 源 于 编程 工作 的 需求 。 编 
程 本 质 上 十 人 与 计算 机 交流 ， 人 们 使 用 计算 机 解决 问题 ， 必 须 把 问题 
转化 为 计算 机 所 能 理解 的 方式 。 当 问题 规模 逐渐 增 大 时 ， 编 程 的 劳动 
量 自然 会 变 得 繁重 。 编 译 系统 的 出 现在 一 定 程度 上 降低 了 编程 的 难度 
和 复杂 度 。 


在 计算 机 刚刚 诞生 的 年 代 ， 人 们 只 能 通过 二 进 制 机 器 指令 指挥 计 
算 机 工作 ， 计 算 机 程序 是 依靠 人 工 拨 动 计算 机 控制 面板 上 的 开关 被 输 
入 到 计算 机 内 部 的 。 后 来 人 们 想到 使 用 穿孔 卡片 来 代替 原始 的 开关 输 
入 ,用 卡片 上 穿孔 的 有 无 表示 计算 机 世界 的 “0 和 “1”， 让 计算 机 目 动 
读 取 罕 筷 卡片 实现 程序 的 录入 ， 这 里 录入 的 指令 束 是 常 说 的 二 进 制 代 
码 。 人 然而 这 种 编程 工作 在 现在 看 起 来 消 直 束 是 一 个 “ 屠 梦 ”， 因 为 一 旦 
穿孔 卡片 的 制作 出 现 错误 ， 所 有 的 工作 都 要 重新 来 过 。 


人 们 很 快 吏 发 现 了 使 用 二 进 制 代码 控制 计算 机 的 不 足 ， 因 为 人 工 
输入 二 进 制 指令 的 错误 率 实 在 太 高 了 。 为 了 解决 这 个 问题 ， 人 们 用 一 
系列 简单 明了 的 助 记 符 代替 计算 机 的 二 进 制 指令 ， 即 我 们 熟知 的 汇编 
语言 。 可 是 计算 机 只 能 识别 二 进 制 指令 ， 因 此 需要 一 个 已 有 的 程序 目 


动 完 成 汇编 语言 到 二 进 制 指令 的 翻译 工作 ， 于 是 汇编 右 就 产生 了 。 程 
序 员 只 需要 写 出 汇编 代码 ， 然 后 交 给 汇编 器 进行 翻译 ， 生 成 二 进 制 代 
码 。 因 此 ， 汇 编 融 将 程序 员 从 烦琐 的 二 进 制 代码 中 解脱 出 来 。 


使 用 汇编 右 提 高 了 编程 的 效率 ， 使 得 人 们 有 能 力 处 理 更 复杂 的 计 
算 问 题 。 随 着 计算 问题 复杂 度 的 提高 ， 编 程 中 出 现 了 大 量 的 重复 代 
码 。 人 们 不 愿意 进行 重复 的 劳动 ， 于 古 束 想 办 法 将 公共 的 代码 提取 出 
来 ， 汇 编 成 独立 的 模块 存储 在 目标 文件 中 ， 甚 至 将 同一 类 的 目标 文件 
打包 成 库 。 由 于 原本 写 在 同一 个 文件 内 的 代码 被 分 割 到 多 个 文件 中 ， 
那么 最 终 还 需要 将 这 些 分 离 的 文件 拼装 起 来 形成 完整 的 可 执行 代码 。 
但 是 事情 并 没有 那么 向 单 ， 由 于 文件 的 模块 化 分 割 ， 文 件 间 的 符号 可 
能 会 相互 引用 。 人 们 需要 处 理 这 些 引 用 关系 ， 重 新 计算 符号 的 引用 地 
址 ， 这 束 是 链接 右 的 基本 功能 。 链 接 器 使 得 计算 机 能 目 动 把 不 同 的 文 
件 模 块 准确 无 误 地 拼接 起 来 ， 使 得 代码 的 复 用 成 为 可 能 。 


图 1-2 描 述 的 链接 方式 称 为 静态 链接 ， 但 这 种 方式 也 有 不 足 之 处 。 
静态 链接 做 把 公用 库 内 的 目标 文件 合并 到 可 执行 文件 内 部 ， 使 得 可 执 
行文 件 的 体积 变 得 庞大 。 这 样 做 会 导致 可 执行 文件 版 本 难以 更 新 ， 也 
导致 了 多 个 程序 加 载 后 相同 的 公用 库 代 码 占 用 了 多 份 内 存 空间 。 为 了 
解决 上 述 的 问题 ， 现 代 编译 系统 都 引入 了 动态 链接 方式 〈 见 图 1-3) 。 
动态 链接 器 不 会 把 公用 库 内 的 目标 文件 合并 到 可 执行 文件 内 ， 而 仅仅 
记录 动态 链接 库 的 路 径 信息 。 它 允许 程序 运行 前 才 加 载 所 需 的 动态 链 


接 库 ， 如 果 该 动态 链接 库 已 加 载 到 内 存 ， 则 不 需要 重复 加 载 。 男 外 ， 
动态 链接 器 也 人 允许 将 动态 链接 库 的 加 载 延 迟到 程序 执行 库 画 数 调 用 的 
那 一 刻 。 这 样 做 ,不仅 市 约 了 磁盘 和 内 存 空间 ， 还 方便 了 可 执行 文件 
版 本 的 更 新 。 如 果 应 用 程序 模块 设计 合理 的 话 ， 程 序 更 新 时 只 需要 更 
新 模块 对 应 的 动态 链接 库 即 可 。 当 然 ， 动 态 链 接 的 方式 也 有 缺 点 。 运 
行 时 链接 的 方式 会 增加 程序 执行 的 时 间 开 销 。 男 外 ， 动 态 链 接 库 的 版 
本 错误 可 能 会 导致 程序 无 法 执行 。 由 于 静态 链接 和 动态 链接 的 基本 原 
理 类 似 ， 且 动态 链接 器 的 实现 相对 复杂 ， 因 此 本 书 编译 系统 所 实现 的 
链接 器 采用 静态 链接 的 方式 。 


1-2 静态 链接 


Cs ) «em 
CC》 


图 1-3 动态 链接 


放 编 器 和 链接 右 的 出 现 大 大 提高 了 编程 效率 ， 降 低 了 编程 和 维护 
的 难度 。 但 是 人 们 对 汇编 语言 的 能 力 并 不 满足 ， 有 人 设想 要 是 能 像 写 
数学 公式 那样 对 计算 机 编程 束 太 方便 了 ， 于 是 就 出 现 了 如 今 形形色色 
的 高 级 编程 语言 。 这 样 束 面临 与 当初 汇编 规 产 生 时 同样 的 问题 一 一 如 
何 将 高 级 语言 翻译 为 汇编 语言 ， 这 正 是 编译 絮 所 做 的 工作 。 编 译 右 比 
汇编 右 复 洒 得 多 。 汇 编 语言 的 语法 比较 单一 ， 它 与 机 咒语 言 有 基本 的 
对 应 关系 。 而 高 级 语言 形式 比较 自由， 计算 机 识别 高 级 语言 的 含义 比 
较 困 难 ， 而 且 它 的 语句 翻译 为 汇编 语言 序列 时 有 多 种 选择 ， 如 何 选择 
更 好 的 序列 作为 翻译 结 采 也 是 比较 困难 的 ， 不 过 最 终 这 些 问 题 都 得 以 
解决 。 高 级 语言 编译 器 的 出 现 ， 实 现 了 人 们 使 用 简洁 易 懂 的 编程 语言 
与 计算 机 交流 的 目的 。 


1.3 GCC 的 工作 流程 


在 着 手 构造 编译 系统 之 前 ， 需 要 先 介绍 编译 系统 应 该 做 的 事情 ， 
而 最 具 参 考 价值 的 资料 惑 是 主流 编译 右 的 实现 。GNU 的 GCC 编译 属 坪 
工业 化 编译 右 的 代表 ， 因 此 我 们 先 了 解 GCC 都 在 做 什么 。 


我 们 写 一 个 最 简单 的 “Helloworld” 程 序 ， 代 码 存 储 在 源 文件 hello.c 
中 ， 源 文件 内 容 如 下 : 


#include<stdio.h> 
int main() 


printf("Hello World!"); 
return 0; 


} 


如 有 果 将 hello.c 编 译 并 静态 链接 为 可 执行 文件 ， 使 用 如 下 gcc 命 令 直 
接 编 译 即 可 : 


$gcc hello.c - 


0 hello -static 


hello 即 编译 后 的 可 执行 文件 。 
如 果 碍 看 GCC 背后 的 工作 流程 ， 可 以 使 用 --verbose 选 项 。 


$gcc hello.c - 
0 hello - 


static --verbose 


输出 的 信息 如 下 : 


$cc1 -quiet hello.c -o hello.s 

$as -0 hello.o hello.s 

$collect2 -Static -0 hello \ 
crti.o crti.o crtbeginT.o hello.o \ 
--Start-group libgcc.a libgcc eh.a libc.a --end-group \ 
crtend.o crtn.o 


为 了 保持 输出 信息 的 人 简洁， 这 里 对 输出 信息 进行 了 整理 。 可 以 看 
出 ，GCC 编 译 背 后 使 用 了 ccl1、as、collect2 三 个 命令 。 其 中 ccl 是 GCC 
的 编译 器 ， 它 将 源 文件 hello.c 编 译 为 hello.s。as 是 访 编 器 命令 ， 它 将 
hello.s 沪 编 为 hello.o 目 标 文 件 。collect2 是 链接 器 命令 ， 它 是 对 命令 ld 的 
封装 。 静 态 链接 时 ，GCC 将 C 语 言 运行 时 库 (CRT) 内 的 5 个 重要 的 目 
标 文件 crt1.o0、crti.o、crtbeginTo、crtend.o、crtn.0 以 及 3 个 静态 库 
libgcc.a、1libgcc_eh.a、1libc.a 链 接 到 可 执行 文件 hello。 此 外 ，cc1 在 对 源 
文件 编译 之 前 ， 还 有 预 编 译 的 过 程 。 


因此 ， 我 们 从 预 编译 、 编译、 汇编 和 链接 四 个 阶段 查看 GCC 的 工 
作 细 有 。 


1.3.1 预 编译 


GCC 对 源 文 件 的 第 一 阶段 的 处 理 是 预 编译 ， 


文件 包含 等 信息 。 命 令 格式 如 下 : 


$gcc - 
E hello.c - 


0 hello.i 


预 编译 器 将 hello.c 处 理 后 输出 到 文件 hello.i， 


"hello.c" 
"<built-in>" 
"<command-line>" 
"hello.c".... 


extern int printf (const char *__restrict _ format, ... 


int main() 


printf("Hello World!"); 
return 0; 


} 


主要 是 处 理 宏 定义 和 


hello.i 文 件 内 容 如 


) 


比如 文件 包含 语句 太 nclude<stdio.h>， 预 编译 器 会 将 stdio.h 的 文件 
内 容 拷贝 到 ##nclude 语 句 声明 的 位 置 。 如 果 源 文件 内 使 用 #define 语 句 定 
义 了 宏 ， 预 编译 句 则 将 该 宏 的 内 容 蔡 换 到 其 被 引用 的 位 置 。 如 果 宏 定 
义 本 身 使 用 了 其 他 宏 ， 则 预 编译 器 需要 将 宏 递 归 地 展开 。 


我 们 可 以 将 预 编 译 的 工作 简单 地 理解 为 源码 的 文本 替换 ， 即 将 宏 
定义 的 内 容 蔡 换 到 宏 的 引用 人 位置。 当然， 这 样 理解 有 一 定 的 片面 性 ， 
因为 要 考虑 安定 义 中 使 用 其 他 安 的 情况 。 事 实 上 预 编 译 硕 的 实现 机 制 
和 编译 全 有 着 很 大 的 相似 性 ， 因 此 本 书 描述 的 编译 系统 将 重点 放 在 源 
代码 的 编译 上 ， 不 再 独立 实现 预 编 译 紫 。 然 而 ， 我 们 需要 清楚 的 事实 


征 : 一 个 完善 的 编译 佑 是 需要 预 编译 郁 的 。 


1.3.2 ”编译 


接 下 来 GCC 对 hello.i 进 行 编译 ， 命 令 如 下 : 


$gcc - 
S hello.i - 


0 hello.s 


编译 后 产生 的 汇编 文件 hello.s 内 容 如 下 : 


.file "hello.c" 
.Section .rodata 
.LCO: 
.String 
"Hello World!" 
.text 
.globl main 
.type main, @functionmain: 
pushl %ebp 
movl %esp, %ebp 
andl $-16, %esp 
subl $16, %esp 
mov1 $.LCO, %eax 
movl %eax, (%esp) 
call 
printf 
mov1 $0, %eax 
leave 
ret 
.Size main, .-main 
.ident "GCC: (Ubuntu/Linaro 4.4.4-14ubuntu5) 4.4.5" 


.Section .Note.GNU-stack,"",@progbits 


GCC 生成 的 汇编 代码 的 语法 是 AT&T 格 式 ， 与 Intel 格 式 的 汇编 有 所 
不 同 〈“ 若 要 生成 mntel 格 式 的 汇编 代码 ， 使 用 编译 选项 <-masm=intel” 即 
可 ) 。 比 如 立即 数 用 “$” 前 级 ， 寄 存 器 用 “%” 前 级 ， 内 存 寻 址 使 用 小 括 
号 等 。 区 别 最 大 的 是 ，AT&T 让 编 指令 的 源 操作 数 在 前 ， 目 标 操作 数 
在 后 ， 这 与 Intel 汇 编 语 法 正好 相反 。 本 书 会 在 后 续 章 下 中 详 细 描 述 这 
两 种 汇编 语法 格式 的 区 别 。 


不 过 我 们 仍 能 从 中 发 现 高 级 语言 代码 中 传递 过 来 的 信息 ， 比 如 字 
符 串 “Hello World! ”、 主 函数 名 称 main、 函 数 调 用 call printf 等 。 


1.3.3 汇编 


接着 ，GCC 使 用 汇编 器 对 hello.s 进 行 汇编 ， 命 令 如 下 : 


$gcc - 
c hello.s - 


0 hello.o 


生成 的 目标 文件 hello.o，Linux 下 称 之 为 可 重 定位 目标 文件 。 目标 
文件 无 法 使 用 文本 编辑 器 直接 查看 ， 但 是 我 们 可 以 使 用 GCC 目 带 的 工 
具 objdump 命 令 分 析 它 的 内 容 ， 命 令 格 式 如 下 : 


$objdump - 


sd hello.o 


输出 目标 文件 的 主要 段 的 内 容 与 反 汇 编 代 码 如 下 : 


hello.o: file format elf32-i386 

Contents of section .text: 

0000 5589e583 ee4f0O83ec 10b80000 00008904 U,,,,,,,，,,,,,，,，,， 

0010 24e8fcff ffffb800 QQ00000c9 cc3 中 Contents of section 
.rodata: 


0000 48656c6c 6f20576f 726c6421 00 


Hello World!. 


Contents of section .comment: 

0000 00474343 3a202855 62756e74 752f4c69 .GCC: (Ubuntu/Li 
0010 6e61726f 20342e34 2e342d31 34756275 naro 4.4.4-14ubu 
0020 6e747535 2920342e 342e3500 ntu5) 4.4.5. 
Disassembly of section .text:00000000 <main>: 


0: 55 push %ebp 
1: 89 e5 mov %esp,%ebp 


3: 83 e4 fo0 and 
$0xfffffff0,%esp 

6: 83 ec 10 sub 
$0x10, %esp 
9 : 


b8 00 00 00 00 


moyv 


$0x0 
1) %eax 
e 89 04 24 mov %eax, 
(%esp) 
11: 
e8 fc ff ff ff 
call 
12 <main+OXx12> 
16: b8 00 00 00 00 mov $0x0, %eax 
1b: c9 leave 
1c: c3 ret 


从 数据 段 二 进 制 信息 的 ASCII 形 式 的 显示 中 ， 我 们 看 到 了 汇编 语 
言 内 定义 的 字符 串 数 据 *Hello World! ”。 代码 段 的 信息 和 汇编 文件 代 
码 信息 基本 吻合 ， 但 是 我 们 发 现 了 很 多 不 同 之 处 。 比 如 汇编 文件 内 的 
指令 “movl$.LC0，%eax” 中 的 符号 .LC0 的 地 址 (字符 串 “Hello 
World! ”的 地 址 ) 被 换 成 了 0。 指 令 “call printf” 内 符号 printf 的 相对 地 址 
被 换 成 了 0xfffffffc， 即 call 指 令 操作 数 部 分 的 起 始 地 址 。 


这 些 区 别 本 质 来 源 于 汇编 语言 从 号 的 引用 问题 。 由 于 六 编 右 在 处 
理 当 前 文件 的 过 程 中 无 法 获悉 符号 的 虚拟 地 址 ， 因 此 临时 将 这 些 符号 
地 址 设置 为 默认 值 0， 真 正 的 符号 地 址 只 有 在 链接 的 时 候 才 能 确定 


Re 人 


使 用 GCC 命令 进行 目标 文件 链接 很 价 单 : 


gcc hello.o - 
0 hello 


GCC 默认 使 用 动态 链接 ， 如 有 果 要 进行 静态 链接 ， 需 加 上 -static 选 
项 . 
gcc hello.o - 


0 hello - 


static 


这 样 生成 的 可 执行 文件 hello 便 能 正常 执行 了 。 


我 们 使 用 objdump 命 令 查 看 一 下 静态 链接 后 的 可 执行 文件 内 的 信 
思 。 由 于 可 执行 文件 中 包含 了 大 量 的 C 语 言 库 文 件 ， 因 此 这 里 不 便 将 
文件 的 所 有 信息 展示 出 来 ， 仅 显示 最 终 main 函 数 的 可 执行 代码 。 


080482c0 <main>: 


80482cg0 : 55 push %ebp 
80482c1: 89 e5 mov %esp,%ebp 
80482c3 : 83 e4 f0 and 

$0xfffffff0,%esp 
80482c6 : 83 ec 10 Sub 

$0x10, %esp80482c9: 


b8 28 e8 0a 08 


mov 
$0x80ae828, 
%eax 
80482ce : 89 04 24 mov %eax, 
(%esp)80482d1: 
e8 fa 0a 00 00 
call 


8048dd0 <_IO_printf> 


80482d6 : b8 00 00 00 00 mov $0x0, %eax 
80482db: c9 leave 
80482dc: c3 ret 


从 main 范 数 的 可 执行 代码 中 ， 我 们 发 现汇 编 过 程 中 摘 述 的 无 法 确 
定 的 符号 地 址 信息 在 这 里 都 被 修正 为 实际 的 符号 地 址 。 如 “Hello 
World! "字符 串 的 地 址 为 0x080ae828，Pprintf 函 数 的 地 址 为 
0x08048dd0。 这 里 符号 IO_printf 与 printf 完 全 等 价 ，call 指 令 内 部 相对 
地 址 为 0x000afa， 正 好 是 printf 地 址 相对 于 call 指 令 下 条 指令 起 始 地 址 
0x080482d6 的 偏 移 。 


1.4 设计 目 己 的 编译 系统 


根据 以 上 描述 ， 我 们 意欲 构造 一 个 能 将 高 级 语言 转化 为 可 执行 文 
件 的 编译 系统 。 高 级 语言 语法 由 我 们 自己 定义 ， 它 可 以 是 C 语 言语 
法 ， 也 可 以 是 它 的 一 个 子 集 ， 但 是 无 论 如 何 ， 该 高 级 语言 由 我 们 根据 
编程 需要 自行 设计 。 另 外 ， 我 们 要 求生 成 的 可 执行 文件 能 正常 执行 ， 
无 论 它 是 Linux 系 统 的 ELE 可 执行 文件 ， 还 是 Windows 系 统 的 PE 文件 ， 
而 本 书 选择 生成 Linux 系 统 的 ELF 可 执行 文件 。 正 如 本 章 开 始 所 描述 
的 ， 我 们 要 做 的 就 是 ， 自 己 动手 完成 当初 单 击 “ 编 译 ” 按 钮 时 计算 机 在 
背后 做 的 事情 。 


然而 在 真正 开工 之 前 ， 我 们 需要 承认 一 个 事实 一 一 我 们 古 无 法 实 
现 一 个 像 GCC 那 样 完善 的 工业 化 编译 器 的 。 因 此 必须 降低 编译 系统 实 
现 的 复杂 度 ， 确 保 实 际 的 工作 在 可 控 的 范围 内 。 本 书 对 编译 系统 的 实 
现 做 了 如 下 修改 和 限制 : 


1) 预 编译 的 处 理 。 如 前 所 述 ， 预 编译 作为 编译 前 期 的 工作 ， 其 主 
要 的 内 容 在 于 安 命令 的 展开 和 文本 蔡 换 。 本 质 上 ， 预 编译 万 也 需要 识 
别 源 代码 语义 ， 它 与 编译 而 实现 的 内 容 十 分 相似 。 通 过 后 面 草 广 对 编 
译 右 实现 原理 的 介绍 ， 我 们 也 能 学 会 如 何 构 造 一 个 简单 的 预 编译 器 。 
因此 ， 在 高 级 语言 的 文法 设计 中 ， 本 书 未 提供 与 预 编 译 处 理 相关 的 语 


法 ， 而 征 直 接 对 源 代码 进行 编译 ， 这 样 使 得 我 们 的 精力 更 关注 于 编译 
虱 的 实现 细 订 上 。 


2) 一 裔 编译 的 方式 。 编 译 侨 的 设计 中 可 以 对 编译 器 的 每 个 模块 独 
立 设计 ， 比 如 词法 分 析 器 、 语 法 分 析 右 、 中 间 代 码 优 化 右 等 。 这 样 做 
可 能 需要 对 源 代码 进行 多 遍 的 扫描 ， 虽 然 编译 效率 相对 较 低 ， 但 是 获 
得 的 源码 语义 信息 更 完善 。 我 们 设计 的 编译 系统 目标 非常 直接 一 一 保 
证 编译 系统 输出 正确 的 可 执行 文件 即 可 ， 因 此 采用 一 过 编译 的 方式 会 
更 高 效 。 


了 


3) 高 级 语言 语法 。 为 了 方便 大 多 数 读者 对 文法 分 析 的 理解 ， 我 们 
参考 C 语 言 的 语法 格式 设计 目 己 的 高 级 语言 。 不 完全 实现 C 语 言 的 所 有 
语法 ， 不 仅 可 以 减少 重复 的 工作 量 ， 还 能 将 精力 重点 放 在 编译 算法 的 
实现 上 ， 而 不 是 复杂 的 语言 语法 上 。 因 此 在 C 语 言 的 基础 上 ， 我 们 删 
除了 浮 扣 类 型 和 struct 类 型 ， 并 将 数组 和 指针 的 维 数 简化 到 一 维 。 


4) 编译 优化 算法 。 编 译 器 内 引入 了 编译 优化 相关 的 内 容 ， 考 虑 到 
编译 优化 算法 的 多 样 性 ， 我 们 挑选 了 才干 经 典 的 编译 优化 算法 作为 优 
化 万 的 实现 。 通 过 对 数据 流 问 题 优 化 算法 的 实现 ， 可 以 帮助 理解 优化 
右 的 工作 原理 ， 对 以 后 深入 学 习 编 译 优化 算法 具有 引导 意义 。 


5) 汇编 语言 的 处 理 。 本 书 的 编译 器 产生 的 汇编 指令 属于 Intel x86 
处 理 硕 指令 集 的 子 集 ， 虽 然 这 间接 降低 了 汇编 项 实现 的 复杂 度 ， 但 是 


不 会 影响 汇编 右 关 键 流程 的 实现 。 另 外 ， 编 译 硕 在 产生 汇编 代码 之 前 
已 经 分 析 了 源 程 序 的 正确 性 ， 生 成 的 汇编 代码 都 是 合法 的 汇编 指令 ， 
因此 在 汇编 器 的 实现 过 程 中 不 需要 考虑 汇编 语言 的 词法 、 语 法 和 语义 
错误 的 情况 。 


6) 静态 链接 方式 。 本 书 的 编译 系统 实现 的 链接 器 采用 静态 链接 的 
方式 。 这 是 因为 动态 链接 紫 的 实现 相对 复杂 ， 而 且 其 与 静态 链接 器 处 
理 的 核心 问题 基本 相同 。 读 者 在 理解 了 静态 链接 如 的 构造 的 基础 上 ， 
通过 进一步 的 学 习 也 可 以 实现 一 个 动态 链接 器 。 


7) ELF 文 件 信息 。 除 了 ELF 文 件 必需 的 段 和 数据 ， 我 们 把 代码 全 
部 存放 在 “.text* 段 ， 数 据 存储 在 “.data” 段 。 按 照 这 样 的 文件 结构 组 织 
式 ， 不 仅 能 保证 二 进 制 代码 正常 执行 ， 也 有 助 于 我 们 更 好 地 理解 ELF 
文件 的 结构 和 组 织 。 


综 上 所 述 ， 我 们 所 做 的 限制 并 没有 删除 编译 系统 关键 的 流程 。 按 
照 这 样 的 设计 ， 是 可 以 允许 一 个 人 独立 完成 一 个 较为 完善 的 编译 系统 
的 。 


1.5 ”本章 小 结 


本 章 从 编程 最 基本 的 话题 聊 起 ， 描 述 了 初学 者 接触 程序 时 可 能 过 
到 的 疑惑 ， 并 从 编程 实践 经 验 中 探索 代码 背后 的 处 理 机 制 。 然 后 ， 使 
用 最 简单 的 “Hello World! ”程序 展现 主流 编译 器 GCC 对 代码 的 处 理 流 
程 。 最 后 ， 我 们 在 工业 化 编译 系统 的 基础 上 做 了 一 定 的 限制 ， 提 出 了 
本 书 编译 系统 需要 实现 的 功能 。 在 接 下 来 的 章节 中 ， 会 对 本 书 中 编译 
系统 的 设计 和 实现 细 市 详细 阐述 。 


第 2 章 ”编译 系统 设计 
厅 禾 虽 小 ， 五 脏 俱 全 。 
一 一 《围城 》 


一 个 完 和 图 的 工业 化 编译 系统 是 非 肖 复杂 的 ， 为 了 清晰 地 描述 它 的 
结构 ， 理 解 编译 系统 的 基本 流程 ， 不 得 不 对 它 进 行 “ 大 刀 阔 径 ” 地 删 
减 。 这 为 目 己 动手 实现 一 个 简单 但 基本 功能 完整 的 编译 系统 提供 了 可 
能 。 虽 然 本 书 设计 的 是 简化 后 的 编译 系统 ， 但 保留 了 编译 系统 的 关键 
流程 。 正 所 谓 “ 麻 禾 虽 小 ， 五 脏 俱全 ”， 本 章 从 全 局 的 角度 描述 了 编译 
系统 的 基本 结构 ， 并 按照 编译 、 汇 编 和 链接 的 流程 来 介绍 其 设计 。 


2.1 编译 程序 的 设计 


编译 怖 是 编译 系统 的 核心 ， 主 要 负责 解析 源 程 序 的 语义 ， 生 成 目 
标 机 顺 代 码 。 一 般 情 况 下 ， 编 译 流程 包 含 词法 分 机、 语法 分 析 、 语 义 
分 析 和 代码 生成 四 个 阶段 。 符 号 表 管 理 和 错误 处 理 贯 罕 于 整个 编译 流 
程 。 如 有 果 编 译 器 文 持 代码 优化 ， 那 么 还 需要 优化 絮 模 块 。 


图 2-1 展 示 了 本 书 设计 的 优化 编译 器 的 结构 ， 下 面 分 别 对 上 述 模 块 
的 实现 方案 做 简单 介绍 。 


错误 处 理 编译 优化 
词法 语法 语义 
错 员 
号 语 } 


源 文件 (*.c) 汇编 文件 (*.s) 


图 2-1 编译 右 结 构 


2.1.1 词法 分 析 


编译 器 工作 之 前 ， 需 要 将 用 高 级 语言 书写 的 源 程序 作为 输入 。 为 
了 便于 理解 ， 我 们 使 用 C 语 言 的 一 个 子 集 定义 高 级 语言 ， 本 书后 续 章 市 
的 例子 都 会 使 用 C 语 言 的 一 些 基 本 语法 作为 示例 。 现 在 假定 我 们 拥有 一 
段 使 用 C 语 言 书写 的 源 程序 ， 词 法 分 析 器 通过 对 源 文 件 的 扫描 获得 高 级 
语言 定义 的 词法 记号 。 所 谓词 法 记号 〈 也 称 为 终结 符 ) ， 反 映 在 高 级 
语言 语法 中 束 是 对 应 的 标识 符 、 关 键 字 、 和 音量， 以 及 运算 各 


分 号 等 界 符 。 见 图 2-2。 


2 
年 
uJ 


源 代码 词法 记号 


图 2-2 ”词法 分 析 功 能 


例如 语句 : 


var2=var1+100; 


该 语句 包含 了 6 个 词法 记号 ， 它 们 分 别 
是 : “var2”=”“var1”+”“100” 和 和 分 号 © 


对 词法 分 析 器 的 要 求 是 能 正常 识别 出 这 些 不 同形 式 的 词法 记号 。 
词法 分 析 器 的 输入 是 源 代码 文本 文件 内 一 长 串 的 文本 内 容 ， 那 么 如 何 


从 文本 串 中 分 析出 每 个 词法 记号 呢 ? 为 了 解决 这 个 问题 ， 需 要 引入 有 
限 自 动机 的 概念 。 


有 限 目 动机 能 解析 并 识别 词法 记号 ， 比 如 识别 标识 符 的 有 限 目 动 
机 、 识 别 和 量 的 有 限 目 动机 等 。 有 限 目 动机 从 开始 状态 局 动 ， 读 入 一 
个 字符 作为 输入 ， 并 根据 该 字符 选择 进入 下 一 个 状态 。 继 续 读 入 新 的 
字符 ， 直 到 人 过 到 结束 状态 为 止 ， 读 入 的 所 有 字符 序列 便 是 有 限 目 动机 


识别 的 词法 记号 。 


图 2-3 摘 述 了 识别 标识 符 的 有 限 目 动机 。C 语 言 标识 符 的 定义 是 : 

一 个 不 以 数字 开始 的 由 下 划 线 、 数 子 、 子 母 组 成 的 非 空 字符 串 。 图 中 
的 目 动机 从 0 号 状态 开始 ， 读 入 一 个 下 划 线 或 者 字母 进入 状态 1， 状 态 1 
可 以 接受 任意 数量 的 下 划 线 、 字 母 和 数字 ， 同 时 状态 1 也 是 结束 状态 ， 
一 旦 它 读 入 了 其 他 异常 字符 便 停 止 自 动机 的 识别 ， 这 样 就 可 以 识别 任 
意 一 个 合法 的 标识 符 。 如 果 在 非 结 束 状 态 读 入 了 异常 的 字符 ， 意 味 着 
发 生 了 词法 错误 ， 目 动机 停止 (当然 ， 上 述 标识 符 的 有 限 目 动机 不 会 
出 现 错误 的 情况 ) 。 


下 划 线 /字母 /数字 


图 2-3 ”标识 符 有 限 目 动机 


我 们 以 赋值 语句 “var2=var1+100; ”中 的 变量 var2 为 例 来 说 明 有 限 自 
动机 识别 词法 记号 的 工作 过 程 。 


识别 var2 的 目 动机 状态 序列 和 读 入 字符 的 对 应 关系 如 表 2-1 所 示 ， 
结束 状态 之 前 识别 的 字符 序列 即 为 合法 的 标识 符 。 


表 2-1 上 自动 机 状态 序列 


使 用 有 限 目 动机 ， 可 以 识别 出 目 定 义 语 言 包含 的 所 有 词法 记号 。 
把 这 些 词法 记号 记录 下 来 ， 作 为 下 一 步 语法 分 析 的 输入 。 如 果 使 用 一 
遍 编 译 方式 ， 束 不 用 记录 这 些 词法 记 写 ， 而 十 直接 将 识别 的 词法 记号 
送 入 语法 分 析 需 进行 处 理 。 


1T2 证 全 亲人 


词法 分 析 器 的 输入 是 文本 字符 串 ， 语 法 分 析 器 的 输入 则 是 词法 分 
析 器 识别 的 词法 记号 序列 。 语 法 分 析 器 的 输出 不 再 是 一 申 线 性 符号 序 
列 ， 而 是 一 种 树 形 的 数据 结构 ， 通 常 称 之 为 抽象 语法 树 。 见 图 2-4 。 


词法 记号 抽象 语法 树 
一 一 一 一 一 > 


文法 


图 2-4 ”语法 分 析 功 能 


继续 前 面 赋值 语句 的 例子 ， 我 们 可 以 先 看 看 它 可 能 对 应 的 抽象 语 
法 树 ， 如 图 2-5 所 示 。 


赋值 


语句 


图 2-5 ”抽象 语法 树 示 例 


从 图 2-5 中 可 以 看 出 ， 所 有 的 词法 记号 都 出 现在 树 的 叶子 节点 上 ， 
我 们 称 这 样 的 叶子 节 扣 为 终结 符 。 而 所 有 的 非 叶 子 市 态 ， 都 是 对 一 早 
词法 记号 的 抽象 概括 ， 我 们 称 之 为 非 终结 符 ， 可 以 将 非 终结 符 看 作 一 
个 单独 的 语法 模块 (抽象 语法 子 树 ) 。 其 实 ， 整 个 源 程序 是 一 棵 完整 
的 抽象 语法 树 ， 它 由 一 系列 语法 模块 按照 树 结 构 组 织 起 来 。 语 法 分 析 
堪 承 是 要 获得 源 程 序 的 抽象 语法 树 表示 ， 这 样 才 能 让 编译 器 具体 识别 
每 个 语法 模块 的 含义 ， 分 析出 程序 的 整体 侣 义 。 


在 介绍 语法 分 析 需 的 工作 之 前 ， 需 要 先 获得 高 级 语言 语法 的 形式 
化 表示 ， 即 文法 。 文 法 定义 了 产程 序 代 码 的 书写 规则 ， 同 时 也 是 语法 


分 析 器 构造 抽象 语法 树 的 规则 。 如 采 要 定义 赋值 语句 的 文法 ， 一 般 可 
以 表达 成 如 下 产生 式 的 形式 : 


< 赋值 语句 >=> 标 识 符 等 号 < 表达 式 > 分 号 


被 “<>” 括 起 来 的 内 容 表 示 非 终结 符 ， 终 结 符 直 接 书 写 即 可 ， 上 了 式 
可 以 读 作 "“ 赋 值 语句 推导 出 标识 符 、 等 号 、 表 达 式 和 分 号 ”。 显 然 ， 表 
达 式 也 有 相关 的 文法 定义 。 根 据 定 义 好 的 高 级 语言 特性 ， 可 以 设计 出 
相应 的 高 级 语言 的 文法 ， 使 用 文法 可 以 准确 地 表达 高 级 语言 的 语法 规 
则 。 


有 了 高 级 语言 的 文法 表示 ， 号 可 以 构造 语法 分 析 右 来 生成 抽象 语 
法 树 。 在 编译 原理 教材 中 ， 接 述 了 很 多 的 文法 分 析 算 法， 有 目 顶 同 下 
的 LL (1) 分 析 ， 也 有 有 自 底 向 上 的 算 符 优先 分 析 、LR 分 析 等 。 其 中 最 
常 使 用 的 是 LL (1) 和 LR 分 析 。 相 比 而 言 ，LR 分 析 器 能 力 更 强 ， 但 是 
分 析 闫 设计 比较 复杂 ， 不 适合 手工 构造 。 我 们 设计 的 高 级 语言 文法 ， 
只 要 稍 加 约束 便 能 使 LL (1) 分 析 器 正常 工作 ， 因 此 本 书 采用 LL (1) 
分 析 絮 来 完成 语法 分 析 的 工作 。 递 归 下 降 子 程序 作为 LL (1) 算法 的 
一 种 便捷 的 实现 方式 ， 非 第 适合 手工 实现 语法 分 析 器 。 


递归 下 降 子 程序 的 基本 原则 是 : 将 产生 式 左 侧 的 非 终结 符 转 化 为 
国 数 定 义 ， 将 产生 式 右 侧 的 非 终结 符 转 化 为 画 数 调用 ， 将 终结 符 转 化 


为 词法 记号 匹配 。 例 如 前 面 提 到 的 赋值 语句 对 应 的 子 程序 的 伪 代 码 大 
致 是 这 样 的 。 
VOid 赋值 语句 


() 


match (标识 符 
match( 等 号 


); 
match( 分 号 


每 次 对 子 程序 的 调用 ， 就 是 按照 前 序 的 方式 对 该 抽象 语法 子 树 的 
一 次 构造 。 例 如 在 构造 赋值 语句 子 树 时 ， 会 先 构造 “赋值 语句 ? 根 节 
点 ， 然 后 依次 匹配 标识 符 、 等 号 子 节 点 。 当 遇 到 下 一 个 非 终结 符 时 ， 

会 进入 对 应 的 “表达 式 ” 子 程序 内 继续 按照 前 序 方式 构造 子 树 的 子 树 。 
最 后 匹配 当前 子 程序 的 最 后 一 个 子 节 点 ， 完 成 < 赋值 语句 * 子 树 的 构 
整个 语法 分 析 就 是 按照 这 样 的 方式 构造 “程序 ” 树 的 一 个 过 程 ， 

旦 在 终结 符 匹 配 过 程 中 出 现 读 入 的 词法 记号 与 预期 的 词法 记号 不 吻合 

的 情况 ， 便 会 产生 语法 错误 。 


J 


在 实际 语法 分 析 咒 实现 中 ， 并 不 一 定 要 显 式 地 构造 出 抽象 语法 
树 。 递 归 下 降 子 程序 实现 的 语法 分 析 器 ， 使 得 抽象 语法 树 的 语法 模块 
都 级 舍 在 每 次 子 程序 的 执行 中 ， 即 每 次 子 程序 的 正确 执行 都 表示 识别 


了 对 应 的 语法 模块 。 因 此 ， 可 以 在 语法 分 析 子 程序 中 直接 进行 后 续 的 
工作 ， 如 语义 分 析 及 代码 生成 。 


2.1.3 ， 行 号 夫人 理 


符号 表 是 记录 符号 信息 的 数据 结构 ， 它 使 用 按 名 存 取 的 方式 记录 
与 符号 相关 的 所 有 编译 信息 。 编 译 器 工作 时 ， 人 少不了 符号 信息 的 记录 
和 更 新 。 在 本 书 定义 的 高 级 语言 中 ， 符 号 存在 两 种 形式 : 变量 和 画 
数 。 前 者 是 数据 的 符号 化 形式 ， 后 者 是 代码 的 符号 化 形式 。 语 义 分 析 
需要 根据 符号 检测 变量 使 用 的 合法 性 ， 代 码 生 成 需要 根据 符号 产生 正 
确 的 地 址 ， 因 此 ， 符 号 信息 的 准确 和 完整 是 进行 语义 分 析 和 代码 生成 
的 前 提 。 见 图 2-6。 


图 2-6 符号 表 管 理 功 能 


量 的 声明 和 定义 的 形式 ， 如 果 变 量 是 局 部 变量 ， 还 需要 记录 变量 在 运 
行 时 栈 帧 中 的 相对 位 置 。 例 如 以 下 变量 声明 语 名 


extern int Var ， 


该 语句 声明 了 一 个 外 部 的 全 局 变量 ， 记 录 变 量 符号 的 数据 结构 除 
了 保存 变量 的 名 称 “var 之 外 ， 还 需要 记录 变量 的 类 型 int”， 以 及 变量 


征 外 部 变量 的 声明 形式 “extern”。 


对 于 函数 符号 ， 需 要 在 符号 表 中 记录 辑 数 的 名 称 、 返 回 类 型 、 参 
数列 表 ， 以 及 玉 数 内 定义 的 所 有 局 部 变量 等 。 例 如 下 面 的 钞 数 定义 代 
码 : 


int sum(int a,int b) 


int c; 
C=a+b 
return c; 


符号 表 应 该 记录 函 数 的 返回 类 型 int”、 国 数 名 “sum”、 参 数列 
表 “int，int*。 男 数 的 局 部 变量 除了 显 式 定义 的 变量 “c”* 之 外 ， 还 暗含 参 
数 [ 恋 量 “a” 和 : ‘b”o 


由 于 局 部 变量 的 存在 ， 符 号 表 必 须 考虑 代码 作用 域 的 变化 。 函 数 
内 的 局 部 变量 在 函数 之 外 是 不 可 见 的 ， 因 此 在 代码 分 析 的 过 程 中 ， 
号 表 需 要 根据 作用 域 的 变化 动态 维护 变量 的 可 见 性 。 


214 证 ni 


编译 原理 教材 中 ， 将 语言 的 文法 分 为 4 种 ，0 型 、1 型 、2 型 、3 型 ， 
并 且 这 几 类 文法 对 语言 的 描述 能 力 依 次 减弱 。 其 中 ，3 型 文法 也 称 为 正 
规 文法 ， 词 法 分 析 器 中 有 限 目 动机 能 处 理 的 语言 文法 正 是 3 型 文法 。2 
型 文法 也 称 为 上 下 文 无 关 文 法 ， 也 是 目前 计算 机 程序 语言 所 采用 的 文 
法 。 顾 名 思 义 ， 程 序 语言 的 文法 是 上 下 文 无 关 的 ， 即 程序 代码 语句 之 
间 在 文法 层次 上 是 没有 关联 的 。 例 如 在 分 析 赋 值 语句 时 ，LL (1) 分 
析 句 无 法 解决 “被 赋值 的 对 象 是 已 经 声明 的 标识 答 吗 ? "这样 的 问题 ， 
因为 语法 分 析 只 关心 程序 语言 语法 形式 的 正确 性 ， 而 不 考虑 语法 模块 
上 下 文 之 间 联 系 的 合法 性 。 


然而 实际 的 情况 是 ， 程 序 语 言 的 语句 昌 然 形式 上 是 上 下 文 无 关 
的 ， 但 含义 上 却 是 上 下 文 相 关 的 。 例 如 : 不 允许 使 用 一 个 未 声明 的 变 
量 ， 不 允许 函数 实 参 列 表 和 形 参 列表 不 一 致 ， 不 允许 对 无 法 默认 转换 
的 类 型 进行 赋值 和 运算 ， 不 允许 continue 语 句 出 现在 循环 语句 之 外 等 ， 
这 些 要 求 是 语法 分 析 咒 不 能 完成 的 。 


根据 本 书 设计 的 程序 语言 文法 ， 编 译 器 的 语义 分 析 模 块 ( 见 图 2- 
7) 处 理 如 下 类 似 问 题 : 


抽象 语法 树 ， 抽 和 多 语法 树 


语义 分 析 


语义 检查 


图 2-7 语义 分 析 功 能 


1) 变量 及 函数 使 用 前 是 否定 义 ? 


2) break 语 句 是 否 出 现在 循环 或 switch-case 语 句 内 部 ? 


3) continue 语 句 是 否 出 现在 循环 内 部 ? 


4) retum 语 句 返 回 值 的 类 型 是 否 与 画 数 返 回 值 类 型 兼容 ? 


5) 函数 调用 时 ， 实 参 列表 和 形 参 列表 是 否 兼 容 ? 


6) 表达 式 计算 及 赋值 时 ， 类 型 是 否 兼 容 ? 


语义 分 析 是 编译 如 处 理 流程 中 对 源 代码 正确 性 的 最 后 一 次 检查 ， 
只 要 源 代 码 语义 上 没有 问题 ， 编 译 右 束 可 以 正常 引导 目标 代码 的 生 
有 


2.1.5 ”代码 生成 


代码 生成 是 编译 器 的 最 后 一 个 处 理 阶 段 ， 它 根据 识别 的 语法 模块 
翻译 出 目标 机 器 的 指令 ， 比 如 汇编 语言 ， 这 一 步 称 为 使 用 基于 语法 制 
导 的 方式 进行 代码 生成 。 见 图 2-8 。 


让 编 代位 


图 2-8 代码 生成 功能 


为 了 便于 理解 ， 本 书 采用 和 常见 的 Intel 格 式 沪 编 语 言 程序 作为 编译 
器 的 输出 。 继 续 引 用 赋值 语句 “var2=var1+100; ”作为 例子 ， 若 将 之 翻 
译 为 汇编 代码 ， 其 内 容 可 能 是 : 


mov eax, [var1] 
mov ebx,100 
add eax,ebx 
mov [tmp],eax 
mov eax, [tmp] 
mov [var2],eax 


参考 图 2-5 中 的 两 个 非 叶 子 节 点 ， 它 们 分 别 对 应 了 表达 式 语 法 模块 
和 赋值 语句 语法 模块 。 上 面 汇编 代码 的 前 4 行 表 示 将 var1 与 100 的 和 存 
储 在 临时 变量 tmp 中 ， 有 是 对 表达 式 翻 译 的 结 有 末 。 最 后 两 行 表示 将 临时 


变量 tmp 复 制 到 var2 变 量 中 ， 是 对 赋值 语句 的 翻译 结果 。 根 据 目 定义 语 
言 的 语法 ， 需 要 对 如 下 语法 模块 进行 翻译 : 


1) 表达 式 的 翻译 。 
2) 复合 语句 的 翻译 。 
3) 画 数 定义 与 调用 的 翻译 。 


4) 数据 段 信息 的 翻译 。 


2.1.6 ”编译 优化 


现代 编译 器 一 般 都 包含 优化 侨 ， 优 化 器 可 以 提高 生成 代码 的 质 
量 ， 但 会 使 代码 生成 过 程 变 得 复 洒 。 一 般 主流 的 工业 化 编译 器 会 按照 
如 图 2-9 所 示 结 构 进 行 设计 。 


现代 编译 器 设计 被 分 为 前 端 、 优 化 器 和 后 端 三 大 部 分 ， 前 端 包 含 
词法 分 析 、 语 法 分 析 和 语义 分 析 。 后 端的 指令 选择 、 指 令 调度 和 寄存 
亏 分 配 实际 完成 代码 生成 的 工作 ， 而 优化 硕 则 是 对 中 间 代 码 进行 优化 
操作 。 实 现 优化 硼 ， 必 须 设计 编译 亏 的 中 间 代 码 表 示 。 中 间 代 码 的 设 
计 没 有 固定 的 标准 ， 一 般 由 编译 器 设计 者 自己 决定 。 


源 代码 汇编 代码 


图 2-9 ”现代 编译 器 结构 


由 于 中 间 代 码 的 存在 ， 使 得 语法 制导 翻译 的 结果 不 再 是 目标 机 如 
的 代码 ， 而 是 中 间 代 码 。 按 照 我 们 目 己 设计 的 中 间 代 码 形 式 ， 上 述 例 
子 生 成 的 中 间 代 码 可 能 是 如 下 形式 : 


tmp=VvVar1+100 
var2=tmp 


即使 优化 器 没有 对 这 段 代 码 进 行 处 理 ， 编 译 占 的 后 并 也 能 正确 地 
把 这 段 中 间 代 码 翻 详 为 目标 机 制 指 令 。 根 据 指令 选择 和 寄存 事 分 配 算 
法 ， 得 到 的 目标 机 天 指令 可 能 如 下 : 


mov eax, [Var1] 
add eax,100 
mov [var2],eax 


编译 器 后 端 在 指令 选择 阶段 会 选择 更 “合适 ”的 指令 实现 中 间 代 码 
的 翻译 ， 比 如 使 用 “add eax，100” 实 现 tmp=var1+100 的 翻译 。 在 寄存 姨 
分 配 阶 段 会 尽 可 能 地 将 变量 保存 在 寄存 器 内 ， 比 如 tmp 一 直 你 存在 eax 
中 o 


中 间 代 码 的 抽象 程度 一 般 介 于 高 级 语言 和 目标 机 器 语言 之 间 。 民 
好 的 中 间 代 码 形式 使 得 中 间 代 码 生 成 、 目 标 代码 生成 以 及 优化 器 的 实 
现 更 加 简单 。 我 们 设计 的 优化 器 实现 了 常量 传播 、 宛 余 消 除 、 复 写 传 
播 和 死 代码 消除 等 经 典 的 编译 优化 算法 。 先 通过 一 个 简单 的 实例 说 明 
中 间 代 码 优 化 的 工作 。 


var1=100; 
var2=var1+100; 


将 上 述 高 级 语言 翻译 为 中 间 代 码 的 形式 如 下 : 


Var1=100 
tmp=vVar1+100 


var2=tmp 


常量 传播 优化 使 编译 如 在 编译 期 间 可 以 将 表达 式 的 结 采 提前 计算 
出 来 ， 因 此 经 过 常量 传播 优化 后 的 中 间 代 码 形式 如 下 : 


tp。 
死 代 码 消 除 优 化 会 把 无 效 的 表达 式 从 中 间 代 码 中 删除 ， 假 如 上 壕 
代码 中 只 有 变量 var2 在 之 后 会 被 使 用 ， 那 么 var1 和 tmp 都 是 无 效 的 计 
算 。 因 此 ， 消 除 死 代码 后 ， 最 终 的 中 间 代 码 如 下 : 


Var2=200 


再 经 过 后 疹 将 之 翻译 为 汇编 代码 如 下 : 


mov [var2],200 


由 于 本 书 篇 幅 及 作者 水 平 所 限 ， 在 不 能 实现 所 有 的 编译 优化 算法 
的 情况 下 ， 选 择 帮 干 经 典 的 优化 算法 来 帮助 读者 理解 优化 器 的 基本 工 
作 流 程 。 


至 此 ， 我 们 简单 介绍 了 高 级 语言 源 文件 转化 为 目标 机 顺 的 汇编 代 
码 的 基本 流程 。 本 书 设计 的 编译 万 文 持 多 文件 的 编译 ， 因 此 编译 万 会 
为 每 个 源 文件 单独 生成 一 份 汇编 文件 ， 然 后 通过 沪 编 絮 将 它们 转换 为 
二 进 制 目 标 文 件 。 汇 编 过 程 中 涉及 目标 机 器 的 指令 格式 和 可 执行 文件 


的 内 容 ， 为 了 便于 理解 汇编 器 的 工作 流程 ， 需 要 提前 准备 与 操作 系统 
和 硬件 相关 的 知识 。 


2.2 X86 指 令 格 式 


编译 系统 的 汇编 圳 需要 把 编译 器 生成 的 汇编 语言 程序 转化 为 x86 格 
式 的 二 进 制 机 器 指令 序列 ， 然 后 将 这 些 二 进 制 信息 存储 为 ELF 格 式 的 目 
标 文 件 。 因 此 需要 先 了 解 二 进 制 机 器 指令 的 基本 结构 。 


如 图 2-10 所 示 ， 在 x86 的 指令 结构 中 ， 指 令 被 分 为 前 级 、 操 作 码 、 
ModR/M、SIB、 偏 移 量 和 立即 数 六 个 部 分 。 本 书 设计 的 编译 器 生成 的 
汇编 指令 中 不 包 仿 前缀， 这 里 暂时 不 介绍 它 的 含义 。 操 作 码 部 分 决定 
了 指令 的 含义 和 功能 ，ModR/M 和 SIB 字 节 为 扩充 操作 码 或 者 为 指令 操 
作 数 提供 各 种 不 同 的 寻 址 模式 。 如 采 指 令 合 有 偏 移 量 和 立即 数 信 息 ， 
号 需要 把 它们 放 在 指令 后 边 的 对 应 位 置 。 


和 32 0 大 和 二 -时 0 


| mod | reg/opcode | _r/m scale| index | base | 
图 2-10” x86 指令 格式 


这 里 使 用 一 个 简单 的 例子 与 表 2-2 说 明 x86 指 令 结构 的 含义 ， 例 如 汇 


编 指令 : 


add eax,ebx 


表 2-2 二进制 指令 编码 


指令 格式 操作 码 mod 字段 reg 字段 rm 字段 指令 编码 
add r/m32 ,reg Ox01 11 011 000 0000 0011 1100 0011 
add reg,r/m32 Ox03 11 000 011 0000 0001 1101 1000 


查阅 Intel 的 指令 手册 ， 当 操作 数 为 32 位 寄存 器 时 ，add 指 令 的 操作 
码 是 0x01 或 者 0x03， 它 们 对 应 的 指令 格式 是 add rm32，reg 和 add reg， 
rm32。 在 ModR/M 字 世 的 定义 中 ， 高 两 位 mod 字 段 为 0b11 时 表示 指令 的 
两 个 操作 数 都 是 寄存 器 ， 低 三 位 表示 rm 操作 数 寄 存 器 的 编号 ， 中 间 三 
位 表示 reg 操 作 数 寄存 器 的 编号 。Intel 定 义 eax 寄 存 器 编号 为 0b000，ebx 
寄存 策 编 号 为 0b011。 如 采 我 们 采用 操作 人 码 0x01，reg 应 该 记录 ebx 的 纺 
号 0b011，rm32 记 录 eax 编 号 0b000，mod 字 段 为 0b11。 因 此 该 指令 的 


ModR/M 字 有 为 


11 011 000 => 0xd8 


同 理 ， 若 采用 操作 码 0x03 的 话 ，ModR/M 字 闻 应 该 是 : 


11 000 011 => OQOxc3 


指令 不 再 含有 其 他 信息 ， 因 此 不 存在 SIB 和 偏 移 量 、 立 即 数字 段 。 
这 样 “add eax，ebx” 指 令 就 有 两 种 二 进 制 表示 形式 : 0x01d8 与 0x03c3。 


通过 这 个 例子 可 以 得 出 结论 ， 在 汇编 器 语法 分 析 阶 段 ， 应 该 记 有 录 
生成 的 二 进 制 指令 需要 的 信息 。 指 令 的 名 称 决定 操作 码 ， 指 令 的 寻 址 


方式 决定 ModR/M 和 SIB 字 段 ， 指 令 中 的 常量 决定 偏 移 量 和 立即 数 部 


分 。 


由 于 本 书 设计 的 编译 絮 所 生成 的 汇编 指令 的 种 类 有 限 ， 因 此 降低 


了 汇编 器 对 指令 信息 分 析 的 复 洒 度 ， 但 是 还 有 大 量 的 其 他 类 型 的 指令 


需要 具体 分 析 ， 这 些 内 容 会 在 以 后 章节 中 国 述 。 


2.3 ELF 文 件 格式 


ELF 文 件 格式 描述 了 Linux 下 可 执行 文件 、 可 重 定位 目标 文件 、 共 
译 目 标 文件 、 核 心 转 储 文件 的 存储 格式 。 本 书 设计 的 编译 系统 只 关心 
可 执行 文件 和 可 重 定 位 目标 文件 的 格式 ， 如 有 果 要 设计 动态 链接 紫 的 
话 ， 则 还 需要 了 解 共 至 目标 文件 的 内 容 。 


ELF 文 件 信 息 的 一 般 存 储 形式 如 图 2-11 所 示 。 


文件 头 (ELF Header) -人 


程序 头 表 ( Program Header Table) | (32* 程 序 头 表 项 个 数 ) 
代码 段 ( . text) 
数据 段 ( . data) 
bss 段 ( .bss) 0 


段 表 字符 串 表 ( .shstrtab) 


段 表 ( Section HeaderTable) (40* 段 表 项 个 数 ) 
表 ( .symtab) (16* 符 号 表 项 个 数 ) 
字符 串 表 ( . strtab) 
重 定 位 表 ( .rel .text) (8* 重 定位 表 项 个 数 ) 


里 定位 表 ( .rel . data) (8*# 重 定位 表 项 个 数 ) 


图 2-11 ”ELF 文件 


在 Linux 下， 可 以 使 用 readelf 命 令 查 看 ELF 文 件 的 信息 。 如 果 要 碍 
看 1.3.3 广 生成 的 hello.o 的 信息 ， 可 以 使 用 如 下 命令 查看 ELF 的 所 有 关键 


信 息 a 


readelf - 


a hello.o 


在 ELF 文 件 中 ， 最 开始 的 52 个 字 节 记录 ELF 文 件 头 部 的 信息 ， 通 
过 它 可 以 确定 ELF 文 件 内 程序 头 表 和 有 段 表 的 位 置 及 大 小 。 以 下 列 出 了 
hello.o 文 件 头 信息 。 


ELF Header : 
Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 
Class: ELF32 
Data: 2's complement, 
little endian 
Version: 1 (current) 
OS/ABI: UNIX - System V 
ABI Version: 0 
Type : 
REL (Relocatable file) 
Machine: Intel 80386 
Version: Ox1 


Entry point address: 


Start of program headers: 


9 (bytes into file) 


Start of section headers: 
224 (bytes into file) 
Flags: Ox0O 


Size of this header: 52 (bytes) 
Size of program headers: © (bytes) 


看 1.3.4 节 
LOAD 的 表 项 表示 需要 加 载 的 段 。 


Number of program headers : 
Size of section headers : 
Number of section headers: 


Section header string table index: 


暴 搂 着 文件 头 便 是 程序 头 表 ， 
因此 只 有 可 执行 文件 包 
静态 链接 生成 的 hello 文 件 ， 可 以 看 到 它 的 程序 头 表 ， 


文件 加 载 到 内 存 ， 


0 
40 (bytes ) 
11 


8 


已 记录 程序 


Program Headers: 
offset 


Type 
LOAD 


0X000000 
Ox08048000 
Ox08048000 
Ox84fd2 
Ox84fd2 
RE 


Ox1000 


LOAD 
Ox085f8c 

OxO80cdf8c 
OxO80cdf8c 
0OX007d4 
Ox02388 

RW 

Ox1000 

NOTE 
TLS 


GNU_STACK 
GNU_RELRO 


OX0000f4 
OX085f8c 
0X000000 
OXx085f8c 


VirtAddr 


OX080480f4 
0OXx080cdf8c 
0X00000000 
0OXx080cdf8c 


以 下 列 出 它 的 程序 头 表 信 息 。 


PhysAddr 


OX080480f4 
0OXx080cdf8c 
0X00000000 
0OXx080cdf8c 


运行 时 操作 系统 如 何 将 


售 程 序 头 表 。 使 用 readelf 碍 


FileSiz 


OxO0044 
0OXx00010 
0OXx00000 
OX00074 


MemSiz 


OxO0044 
Ox00028 
0Xx00000 
0OX00074 


Flg 


必 力 必 刀 


类 型 为 


Align 


Ox4 
Ox4 
Ox4 
Ox1 


ELF 文 件 最 关键 的 结构 是 段 表 ， 这 里 的 段 表 示 文 件 内 的 信息 块 ， 
与 汇编 语言 内 的 段 并 非 同一 个 概念 。 上 段 表 记录 了 ELF 文 件 内 所 有 上 段 的 
位 置 和 大 小 等 信息 。 在 所 有 的 段 中 ， 有 保存 代码 二 进 制 信息 的 代码 
段 、 存 储 数据 的 数据 段 、 保 存 段 表 名 称 的 段 表 字符 串 表 段 和 存储 程序 
字符 串 常 量 的 字符 串 表 段 。 符 号 表 段 记录 汇编 代码 中 定义 的 符号 信 
息 ， 重 定位 表 段 记录 可 重 定位 目标 文件 中 需要 重 定位 的 符号 信息 。 
hello.o 的 段 表 如 下 : 


Section Headers : 


[Nr] Name Type Addr Off Size ES Flg 
k Inf Al 
[9] NULL 00000000 ©000000 000000 00 
0 0 0 
[1] 
text 
PROGBITS 

00000000 
000034 
00001d 

00 

AX 

0 

0 

4 
[2] 
.rel.text 

REL 
00000000 

000350 


©000010 


08 


9 
工 
4 
[3] 
data 
PROGBITS 
00000000 
000054 
000000 
00 
WA 
0 
0 
4 
[4] .bss NOBITS 
0 4 
[5] .rodata PROGBITS 
[6] RN PROGBITS 
[7] i PROGBITS 
[8] er STRTAB 
0 工 
[9] 
.Symtab 
SYMTAB 
00000000 
000298 
0000a0 
10 
10 
8 


00000000 


00000000 


00000000 


00000000 


00000000 


000054 
000054 
000061 
00008d 


00008d 


000000 
00000d 
00002cC 
000000 


000051 


00 


00 


Strta 
10 trtab STRTAB 00000000 000338 000015 00 
0 工 


符号 表 段 是 按照 表格 形式 存储 符号 信息 的 ， 我 们 可 以 看 到 主 画 数 


和 printf 函 数 的 符号 项 。 


Symbol table '.symtab' contains 10 entries: 


Num: Value Size Type Bind Vis Ndx 
Name 
0: 00000000 0 NOTYPE LOCAL DEFAULT UND 
1: 00000000 0 FILE LOCAL DEFAULT ABS 
hello.c 
2: 00000000 0 SECTION LOCAL DEFAULT 工 
3: 00000000 0 SECTION LOCAL DEFAULT 3 
4: 00000000 0 SECTION LOCAL DEFAULT 4 
5: 00000000 0 SECTION LOCAL DEFAULT 5 
6: 00000000 0 SECTION LOCAL DEFAULT 7 
7: 00000000 0 SECTION LOCAL DEFAULT 6 
8: 00000000 
29 
FUNC 
GLOBAL 
DEFAULT 
工 
main 
9: 00000000 
0 
NOTYPE 
GLOBAL 
DEFAULT 
UND 
printf 


重 定位 表 也 是 按照 表格 形式 存储 的 ， 很 明显 ，printf 作 为 外 部 符号 


征 需 要 重 定位 的 。 


Relocation section ' .rel.text' at offset 0x350 contains 2 entries: 
ff Info Type Sym.Val 


offset Sym.Name 
0000000a 00000501 R_386_32 00000000 .rodata00000012 
00000902 
R_386_PC32 
00000000 
printf 


从 ELF 文 件 格 式 的 设计 中 可 以 看 出 ， 可 执行 文件 其 实 就 是 按照 一 
定 标 准将 二 进 制 数据 和 代码 等 信息 包 泌 起 来 ， 方 便 操作 系统 进行 管理 
和 使 用 。 从 文件 头 可 以 找到 程序 头 表 和 段 表 ， 从 段 表 可 以 找到 其 他 所 
有 的 段 。 因 此 ， 在 汇编 语言 输出 目标 文件 的 时 候 ， 束 需要 收集 这 些 段 
的 信息 ， 并 按照 ELF 格 式 组 猴 目 标 文件 。 这 样 做 不 仅 有 利于 使 用 操作 
系统 现 有 的 工具 调试 文件 信息 ， 也 为 后 期 链接 右 的 实现 提供 了 方便 。 


另外 需要 说 明 的 是 ， 对 于 ELF 文 件 格式 的 定义 ，Linux 提 供 了 头 文 
件 描 述 。 在 系统 目 孙 /usrinclude/elf.h 提 供 的 elf.h 头 文件 中 描述 了 标准 
ELF 文 件 的 数据 结构 的 定义 ， 在 实现 汇编 器 和 链接 絮 的 代码 中 都 使 用 
以 关 文件 


2.4 汇编 程序 的 设计 


通过 对 六 编 右 已 有 的 了 解 ， 可 以 发 现 放 编 器 和 编译 如 的 实现 非 肖 
相似 。 编 译 器 是 将 高 级 语言 翻译 为 汇编 语言 的 转换 程序 ， 沪 编 器 则 是 
将 汇编 语言 翻译 为 目标 机 器 二 进 制 代码 的 转换 程序 。 沪 编 器 实际 就 是 
汇编 语言 的 “编译 器 ”， 虽 然 汇 编 语言 并 非 高 级 语言 


汇编 项 也 包含 词法 分 析 、 语 法 分 析 、 语 义 处 理 、 代 码 生 成 四 个 基 
本 流程 。 但 前 面 讨论 过 ， 本 书 设计 的 汇编 器 面 同 编译 合 所 生成 的 汇编 
人 代码， 汇编 代码 的 正确 性 由 编译 器 保证 ， 因 此 沪 编 器 不 需要 进行 错误 
检查 以 及 语义 的 正确 性 检查 。 本 书 设计 的 汇编 得 结 构 如 图 2-12 所 示 。 


相 比 于 编译 硒 ， 汇 编 万 的 工作 重点 放 在 目标 文件 信息 的 收集 和 二 
进 制 指令 的 生成 上 。 下 面 分 别 介绍 让 编 器 的 基本 模块 。 


图 2-12 ”汇编 器 结构 


2 4 站 侧记 法 请 法 分 信 


汇编 语言 有 独立 的 词法 记号 ， 对 于 汇编 词法 的 分 析 ， 只 需要 构造 
相应 的 词法 有 限 目 动机 束 可 以 了 。 举 一 个 简单 的 例子 : 


mov eax, [ebp-8] 


该 指令 有 8 个 词法 记号 ， 它 们 分 别 是 ， ”mov ”eax ”逗号 ”[ 
”ebp “一 ”8 和“] ”。 汇 编 吏 的 词法 分 析 副 将 词法 记号 送 到 语法 
分 析 器 用 于 识别 汇编 语言 的 语法 模块 。 同 样 ， 我 们 需要 构造 汇编 语言 
语法 分 析 器 ， 在 这 里 可 以 提前 看 一 下 上 述 汇 编 指 令 的 抽象 语法 树 ， 如 
图 2-13 所 示 。 


mov 指 令 


EC 
> < (a) 


图 2-13 汇编 指令 抽象 语法 子 树 


图 2-13 中 是 简化 后 的 抽象 语法 树 ， 与 编译 右 类 似 ， 语 法 分 析 器 会 在 
非 叶 子 节点 处 识别 语法 模块 ， 以 产生 语义 动作 。 由 于 汇编 器 要 输出 可 
重 定位 目标 文件 ， 因 此 在 语法 分 析 时 要 收集 目标 文件 的 相关 信息 。 比 
如 记录 代码 段 和 数据 段 的 长 度 、 目 标 文 件 符号 表 的 内 容 、 重 定位 表 的 
内 容 等 ， 这 些 操作 都 在 语法 分 析 器 识别 每 个 语法 模块 时 使 用 语法 制导 
的 方式 完成 。 


另外 ， 汇 编 器 和 编译 器 最 大 的 不 同 是 汇编 右 需 要 对 源 文件 进行 两 
过 扫描 ， 其 根本 原因 是 汇编 语言 允许 符号 的 后 置 定义 ， 例 如 汇编 语言 


常见 的 跳 转 指令 : 


从 
和 
第 


jmp 上 


很 明显 ， 在 第 一 衣 分 析 jmp 指 令 的 时 候 ， 汇 编 器 并 不 知道 符号 L 
已 经 定义 。 因 此 ， 汇 编 右 需要 通过 第 一 所 扫描 获取 符号 的 信息 ， 在 
二 通 扫 摘 时 使 用 符号 的 信息 。 


2.4.2” 表 信 息 生 成 


汇编 器 的 符号 表 除了 记录 符号 的 信息 之 外 ， 还 需要 记录 段 相关 的 
信息 以 及 重 定位 符号 的 信息 ， 这 些 信息 都 是 生成 可 重 定位 目标 文件 所 
必需 的 。 


对 于 段 表 的 信息 ， 可 以 在 汇编 器 识别 section 语 法 模块 时 进行 处 理 。 
比如 声明 代码 段 的 汇编 代码 及 段 表 信息 生成 ( 见 图 2-14) 。 


section .text 


section .+ex+ = 
mov eax ,ebx 
InCc eax 


section .daf+er- 
buffer +imes 10 db 0 
section .bss 

EOF 


图 2-14 ”上 段 表 信息 生成 


汇编 器 的 语法 分 析 句 只 要 计算 两 次 section 声 明之 间 的 地 址 莽 ， 便 能 
获得 段 的 长 度 ， 从 而 将 段 的 名 称 、 偏 移 、 大 小 记 杂 到 段 表 项 内 。 如 果 
规定 段 按 照 4 字 下 对 齐 ， 则 需要 对 段 侦 移 进行 扩展 ， 如 图 2-14 所 示 。 


汇编 器 的 符号 表 与 ELF 文 件 的 符号 表 并 非 同一 个 概念 。 汇 编 器 的 符 
号 表 来 源 于 汇编 语言 定义 的 符号 ，ELF 文 件 的 符号 表 是 汇编 器 根据 需要 


定义 的 符号 ， 这 个 符号 对 汇编 万 来 说 是 一 个 符号 ， 但 在 ELF 文 件 内 ， 写 
名 


就 是 一 个 数字 和 常量， 不 存在 符号 信息 。 


section .+ex+ 
global main 


Global 
Global 
Local 
Global 


section .data | -一 Global 
global glb----1™ 


glb dd 100 
global var 
var dd 1 -~ 


图 2-15 ”符号 表 信 息 生成 


目标 文件 链接 时 会 重新 组 织 代码 段 、 数 据 段 的 位 置 。 这 样 段 内 定 
义 的 所 有 符号 的 地 址 以 及 引用 符号 的 数据 和 指令 都 会 产生 偏 产 ， 这 时 
就 重新 计算 符号 的 地 址 ， 修 改 原 来 的 地 址 ， 也 就 是 常 说 的 重 定位 。 重 
定位 一 般 分 为 两 大 类 : 绝对 地 址 重 定 位 和 相对 地 址 重 定位 。 在 重 定 位 
表 内 ， 需 要 记录 符号 重 定位 相关 的 所 有 信息 〈 见 图 2-16) 。 


section .text section .+ex+ 


重 定位 重 定位 位 置 | 重 定位 位 置 重 定位 
je whileExit1 

call fun 

whileExit1: 


section .data 


section .data 
glb dd 100 


图 2-16 重 定 位 表 信 息 生 成 


2.4.3 ”指令 生成 


2.2 节 介绍 了 x86 指 令 的 基本 结构 。 同 样 ， 在 汇编 器 语法 分 析 时 ， 
需要 根据 指令 的 语法 模块 收集 这 些 指令 的 结构 信息 。 比 如 操作 码 、 
ModR/M 字 段 、SIB 字 段 、 偏 移 量 、 立 即 数 ， 然 后 按照 指令 的 结构 将 上 


述 信息 写 入 文件 即 可 。 


首先 ， 指 令 名 和 操作 码 一 般 是 一 对 多 的 关系 ， 因 此 需要 根据 具体 
的 操作 数 类 型 或 长 度 来 决定 操作 码 的 值 。 按 照 操 作 数 不 同 建立 一 张 指 
令 的 操作 码 表 来 执行 操作 码 的 碍 询 是 一 种 有 效 的 解决 方案 。 


其 次 ， 有 些 指令 的 ModR/M 字 段 的 reg 部 分 与 操作 码 有 关 ， 但 不 需 
要 输出 ModR/M 了 字段 ， 汇 编 右 需要 单独 处 理 这 些 特殊 的 指令 操作 码 。 
否 扩 展 了 SIB 字 段 的 信息 。 


另外 ，ModR/M 字 段 中 包含 是 
除了 正确 输出 指令 的 二 进 制 信息 外 ， 汇 编 絮 在 直到 对 符号 引用 的 
站 令 时 还 要 记录 相关 重 定位 信息 ， 比 如 重 定位 地 址 、 重 定位 符号 、 重 


定位 类 型 等 。 


最 后 ， 参 考 之 前 介绍 的 ELF 文 件 结构 ， 汇 编 右 将 收集 到 的 段 信 息 
和 二 进 制 数据 组 朔 到 目标 文件 内 。 


至 此 ， 根 据 已 描述 的 汇编 需 主 要 工作 流程 ， 可 以 生成 标准 的 ELF 
可 重 定位 目标 文件 。 那 么 ， 如 何 把 这 些 分 散 的 目标 文件 合并 成 我 们 最 
终 想 要 的 可 执行 文件 ， 便 是 接 下 来 要 介绍 的 链接 妖 的 工作 内 容 。 


2.5 ”链接 程序 的 设计 


本 书 欲 设 计 一 个 位 涪 的 静态 链接 絮 ， 以 满足 上 壕 汇 编 右 产生 的 目 
标 文件 的 链接 需求 。 它 的 工作 内 容 是 把 多 个 可 重 定位 目标 文件 正确 地 
合并 为 可 执行 文件 ， 但 链接 器 不 是 对 文件 进行 简单 的 物理 合并 。 除 了 
合并 同类 的 段 外 ， 链 接 需 需要 为 段 分 配合 适 的 地 址 空间 ， 还 需要 分 析 
目标 文件 符号 定义 的 完整 性 ， 同 时 对 符号 的 地 址 信息 进行 解析 ， 最 后 
还 有 链接 絮 最 关键 的 工作 一 一 重 定位 。 本 书 设计 的 链接 右 结 构 如 图 2-17 
DS 


一世 


可 重 定位 目标 文件 
(#.、0) 


图 2-17 链接 器 结构 


段 的 地 址 空间 分 配 除 了 为 加 载 妖 提供 相应 的 信息 外 ， 还 可 为 段 内 
符号 地 址 的 计算 提供 依据 。 符 号 解析 除了 验证 符号 引用 和 定义 的 正确 
性 之 外 ， 还 需要 计算 出 每 个 符号 表 内 符号 的 虚拟 地 址 。 重 定位 可 以 让 
每 个 引用 符号 的 数据 或 者 代码 具有 正确 的 内 容 ， 以 保证 程序 的 正确 
性 ， 下 面 就 按照 这 三 个 方面 分 别 介绍 链接 右 的 工作 。 


2.5.1 地 址 空间 分 配 


在 让 编 右 生成 的 目标 文件 内 ， 古 无 法 确定 数据 段 和 代码 段 的 虚拟 
地 址 的 ， 因 此 将 它们 的 段 地 址 都 设置 为 0。 链 接 瑚 是 这 些 代 码 和 数据 加 
载 到 内 存 执行 之 前 的 最 后 一 道 处 理 ， 因 此 要 为 它们 分 配 段 的 基 址 。 


链接 器 按照 目标 文件 的 输入 顺序 扫描 文件 信息 ， 从 每 个 文件 的 段 
表 中 提取 出 各 个 文件 的 代码 段 和 数据 段 的 信息 。 假 设 可 执行 文件 段 加 
载 后 的 起 始 地 址 是 0x080408000， 链 接 器 从 该 地 址 开始 ， 就 像 * 摆 积 
木 ” 似 的 将 所 有 文件 的 同类 型 段 合 并 ， 按 照 代码 段 、 数 据 段 、“.bss” 段 的 
顺序 依次 决定 每 个 段 的 起 始 地 址 ， 此 时 需要 考 虚 段 间 对 齐 产 生 的 偏 移 
以 及 特殊 的 地 址 计算 方式 〈 参 考 第 5 章 关 于 程序 头 表 的 描述 ) 。 


图 2-18 展 示 了 链接 器 将 目标 文件 ao 和 b.o 链 接 为 可 执行 文件 ab 时 ， 
地 址 空间 分 配 的 效果 。a.o 的 数据 段 大 小 为 0x08 字 和 节 ， 代 码 段 大 小 为 
0x4a 字 节 ; b.o 的 数据 段 大 小 为 0x04 字 节 ， 代 码 段 大 小 为 0x21 字 节 。 链 
接 后 的 可 执行 文件 ab 的 数据 段 大 小 为 0x0c 字 节 ， 代 码 段 大 小 为 0x6d 字 
节 (对 齐 b.o 的 代码 段 消 耗 2 字 节 ) 。 代 码 段 的 起 始 地 址 为 0x08048080， 
结束 地 址 为 0x08048080+0x6d=0x080480ed。 数 据 段 起 始 地 址 为 
0x080490f0， 结 束 地 址 为 0x080490f0+0x0c=0x080490fc 。 


section .text+ section .text+ section .text 


mov eax,[exf] mov eax,[ext+] ee ata 


mov [var ],eax mov [var],eax 


section .data section .text 


section .data 


section .data 
ext dd 0 


文件 ab 


图 2-18 ”地 址 空间 分 配 


2.5.2 ”符号 解析 


如 果 说 地 址 空间 分 配 是 为 段 指 定 地 址 的 话 ， 那 么 符号 解析 束 是 为 
段 内 的 符号 指定 地 址 。 对 于 一 个 汇编 文件 来 说 ， 它 内 部 使 用 的 符号 分 
为 两 类 : 一 类 来 目 目 身 定义 的 符号 ， 称 为 内 部 符号 。 内 部 符号 在 其 段 
内 的 偏 移 是 确定 的 ， 当 段 的 起 始 地 址 指定 完毕 后 ， 内 部 符号 的 地 址 按 
照 如 下 方式 计算 : 


符号 地 址 = 符号 所 在 段 基 址 + 符号 所 在 段 内 偏 移 


男 一 类 来 目 其 他 文件 定义 的 符号 ， 本 地 文件 只 古 使 用 该 符号 ， 这 
类 符号 称 为 外 部 符号 。 外 部 符号 地 址 在 本 地 文件 内 是 无 法 确定 的 ， 但 

部 符号 总 定义 在 其 他 文件 中 。 外 部 符号 相对 于 定义 它 的 文件 吏 是 
内 部 符号 了 ， 同 样 使 用 前 面 的 方式 计算 出 它 的 地 址 ， 而 使 用 该 符号 的 
本 地 文件 需要 的 也 是 这 个 地 址 。 


Pf 
SS 
Kk 


在 重 定位 目标 文件 内 ， 符 号 表 记 录 了 符号 的 所 有 信息 。 对 于 本 地 
定义 的 符号 ， 符 号 表 项 记录 符号 的 段 内 侦 移 地 址 。 对 于 外 部 引用 的 符 
号 ， 符 号 表 项 标识 该 符号 为 “未 定义 的 ”。 当 链接 需 扫 描 到 定义 该 外 部 
符号 的 目标 文件 时 ， 束 需要 将 该 外 部 符号 的 地 址 修改 为 正确 的 符号 地 
址 。 最 终 的 结 采 使 得 所 有 目标 文件 内 的 符号 信息 ， 无 论 是 本 地 定义 的 
还 是 外 部 定义 的 都 是 完整 的 、 正 确 的 。 


链接 稻 在 扫描 重 定 位 目标 文件 的 符号 表 时 会 动态 地 维护 两 个 符号 


号 
的 集合 Import， 该 集合 内 所 有 符号 都 来 产 于 其 他 目标 文件 。 文 件 扫 
完毕 后 ， 链 接 妖 需要 验证 Import 集 合 是 否 是 Export 的 子 集 。 如 果 不 
古 ， 束 表明 存在 未 定义 的 符号 。 未 定义 的 符号 信息 十 未 知 的 ， 链 接 右 
无 法 进行 后 续 的 操作 ， 因 而 会 报错 。 如 果 验 证 成 功 ， 则 表明 所 有 文件 
引用 的 外 部 符号 都 已 定义 ， 链 接 右 才 会 将 已 定义 的 符号 信息 拷贝 到 未 


定义 符号 的 人 符号 表 项 。 


号 
日 


符号 解析 完毕 后 ， 所 有 目标 文件 符号 表 内 的 所 有 符号 都 获得 了 完 
整 、 正 确 的 符号 地 址 信息 。 比 如 图 2-18 内 的 符号 var、ext 和 fun 在 符号 
解析 后 的 符号 地 址 分 别 为 0x080490f4、0x080490f8 和 0x080480cc 。 


2.5.3” 重 定位 


重 定 位 从 本 质 上 来 说 殉 是 地 址 修正 。 由 于 目标 文件 在 链接 之 前 不 
能 获取 目 己 所 使 用 符号 的 虚拟 地 址 信息 ， 因 此 导致 依赖 于 这 些 符 号 的 
数据 定义 或 者 指令 信息 缺失 。 汇 编 喜 在 生成 目标 文件 的 时 候 就 记录 下 
所 有 需要 重 定位 的 信息 。 链 接 别 获取 这 些 重 定位 信息 ， 并 按照 重 定 位 
信息 的 含义 修改 已 经 生成 的 代码 ， 使 得 最 终 的 代码 正确 、 完 整 。 


之 所 以 称 重 定位 是 链接 右 最 关键 的 操作 ， 主 要 是 因为 地 址 空间 分 
配 和 符号 解析 都 是 为 重 定位 做 准备 的 。 程 序 在 运行 时 ， 段 的 信息 、 符 
号 的 信息 都 显得 “微不足道 *， 因 为 CPU 只 关心 文件 内 的 代码 和 数据 。 
即便 如 此 ， 也 不 能 忽略 地 址 空间 分 配 和 符号 解析 的 重要 性 。 既 然 重 定 
位 是 对 已 有 二 进 制 信息 的 修改 ， 因 此 作为 链接 絮 需 要 清楚 几 件 事情 : 


1) 在 哪里 修改 二 进 制 信息 ? 
2) 用 什么 信息 进行 修改 ? 
3) 按照 怎样 的 方式 修改 ? 


这 三 个 问题 反映 在 重 定位 中 对 应 的 三 个 参数 : 重 定位 地 址 、 重 定 


位 符号 和 重 定 位 类 型 。 


重 定位 地 址 在 重 定位 表 中 没有 直接 记录 ， 因 为 在 重 定位 目标 文件 
内 ， 段 地 址 还 没 确定 下 来 ， 它 只 记录 了 重 定位 位 置 所 在 段 内 的 偏 移 ， 
在 地 址 空间 分 配 结 束 后， 我 们 使 用 如 下 公式 计算 出 重 定位 地 址 : 


重 定位 地 址 = 重 定位 位 置 所 在 段 基 址 + 重 定位 位 置 的 段 内 俩 移 


重 定 位 符号 记录 着 被 指令 或 者 数据 使 用 的 符号 信息 ， 比 如 call 指 令 
的 标号 、mov 指 令 使 用 的 变量 符号 等 。 在 符号 解析 结束 后 ， 重 定位 符 


号 的 地 址 就 已 经 确定 了 。 


重 定 位 类 型 决定 修改 二 进 制 信息 的 方式 ， 即 绝对 地 址 重 定位 和 相 
对 地 址 重 定位 。 


在 确定 了 重 定位 符号 地 址 和 重 定位 地 址 后 ， 根 据 重 定位 的 类 型 ， 
链接 絮 便 可 以 正确 修改 重 定 位 地 址 处 的 符号 地 址 信息 。 


至 此 ， 链 接 亏 的 主要 工作 流程 描述 完毕 。 作 为 编译 系统 的 最 后 一 
个 功能 模块 ， 链 接 需 与 操作 系统 的 关系 是 最 密切 的 ， 比 如 它 需 要 考虑 
页 面 地 址 对 齐 、 指 令 系 统 结构 以 及 加 载 促 工作 的 特点 等 。 


2.6 “本章 小 结 


本 章 介绍 了 编译 系统 的 设计 ， 并 按照 编译 、 汇 编 和 链接 的 顺序 前 
述 了 它们 的 内 部 实现 。 同 时 ， 也 介绍 了 x86 指 令 和 ELF 文 件 结构 等 与 操 
作 系统 及 硬件 相关 的 知识 。 


通过 以 上 的 描述 ， 可 以 了 解 高 级 语言 如 何 被 一 步 步 转化 为 汇编 语 
言 ， 以 及 词法 分 析 、 语 法 分 析 、 语 义 分 析 、 符 号 表 和 代码 生成 作为 纺 
译 郁 的 主要 模块 ， 其 内 部 是 如 何 实现 的 。 汇 编 硕 在 把 汇编 语言 程序 转 
化 为 二 进 制 机 豆 代 码 时 ， 做 了 怎样 的 工作 ; 汇编 希 的 词法 和 语法 分 析 
与 编译 孝 有 何不 同 ; 汇编 右 如 何 生成 二 进 制 指令 和 目标 文件 的 信息 。 
链接 稻 在 处 理 目 标 文件 时 征 如 何 进行 地 址 分 配 、 符 号 解析 以 及 重 定位 
的 ， 它 生成 的 可 执行 文件 和 目标 文件 有 何不 同等 。 


通过 对 这 些 问题 的 倘 要 朱 述 ， 我 们 对 编译 系统 的 工作 流程 有 了 全 
局 的 认识 。 至 于 具体 的 实现 细 市 会 在 以 后 的 章 市 中 以 一 个 目 己 动手 实 
现 的 编译 系统 为 例 详 细 进 行 介绍 ， 下 面 就 让 我 们 开始 实现 一 个 真正 的 


编译 系统 吧 ! 


一 一 《茄子 》 


从 本 草 开 始 ， 将 详细 阐述 如 何 构 造 一 个 目 定 义 语言 的 编译 硕 。 在 
实现 编译 作 之 前 ， 必 须 弄 清 编译 占 要 处 理 什么 样 的 语言 。 本 书 设计 的 
目 定义 语言 古 C 语 言 的 子 集 。C 语 言 本 映 容易 理解 ， 为 多 数 人 熟知 ， 了 
解 C 语 言 编译 紫 的 实现 过 程 对 加 深 理 解 C 语 言 的 本 质 大 有 人 神 益 。 此 外 ， 
选用 C 语 言 的 子 集 可 以 有 效 降低 编译 器 实现 的 复杂 度 ， 将 我 们 的 精力 
重点 放 在 编译 敌 实 现 的 流程 ， 而 非 党 杂 、 重 复 的 编码 工作 上 。 


参考 图 2-1 揪 述 的 编译 器 的 结构 ， 接 下 来 详细 阐述 编译 帮 每 个 功能 
模块 的 实现 。 


3.1 词法 分 析 


词法 分 析 是 编译 右 处 理 流程 中 的 第 一 步 ， 它 顺序 扫描 源 文件 内 的 
字符 ， 通 过 与 词法 记号 的 有 限 目 动机 进行 匹配 ,产生 各 式 各 样 的 词法 
记号 。 图 3-1 描 述 了 词法 分 析 器 的 结构 ， 将 从 源 文 件 内 按 序 扫描 字符 的 
功能 独立 出 来 ， 称 之 为 扫描 器 ， 而 与 有 限 自 动机 进行 匹配 产生 词法 记 
号 的 功能 称 为 解析 船 。 


有 限 日 动机 


图 3-1 词法 分 析 屁 结构 


词法 记号 


根据 词法 分 析 器 的 结构 ， 需 要 解决 以 下 四 个 问题 : 


1) 扫描 器 如 何 实现 源 文件 字符 的 扫描 ， 它 与 普通 的 读 文件 有 什么 


2) 词法 记 写 是 如 何 定义 的 ? 


3) 为 什么 有 限 自 动机 可 以 识别 词法 记号 ? 


4) 解析 器 是 如 何 利 用 有 限 自动 机 将 一 串 字 符 转 化 为 词法 记号 的 ? 


涡 者 这 四 个 问题 ， 我 们 一 起 探索 词法 分 析 紫 的 实现 。 


3.1.1 扫描 顷 


扫描 硕 读 取 产 文件 ， 按 序 返 回 文 件 内 的 字符 ， 直 到 文件 结束 。 简 
单 地 说 ， 扫 摘 融 按 序 读 取 源 文件 内 的 每 一 个 字 节 的 数据 。 如 图 3-2 所 
示 ， 字 符 a 前 面 的 空格 ”20” 和 分 号 后 面 的 换行 符 ” ”都 会 被 读 
取 。 


3-2 扫描 器 功能 


使 用 C 语 言 的 库 画 数 fscanf 或 者 fread 可 以 轻松 实现 扫描 右 的 功能 ， 
代码 如 下 : 


1 char Scanner::scan 


(FILE*file){ 

2 char ch / /保存 读 取 的 字符 
3 if(fscanf 

(file,"%c",&ch)==EOF)f //fscanf 读 取 文 件 内 字符 到 

ch 

4 ch=-1; / /文件 结束 时 

Ch 记录 为 

-1 


5 } 


6 return ch; / /返回 字符 


这 样 做 可 以 实现 扫描 紫 的 基本 功能 ， 但 是 并 不 高 效 。 因 为 词法 分 
析 器 每 次 调用 scan 函 数 获取 源 文件 内 的 下 一 个 字符 时 ， 都 会 产生 一 次 
对 磁盘 的 读 操 作 ， 而 磁盘 的 IO 操作 是 比较 耗 时 的 。 更 高 效 的 方式 是 使 
用 一 块 缓冲 区 保存 后 续 的 多 个 字符 ， 每 次 调用 scan 时 首先 从 绥 冲 区 内 
按 序 获取 字符 ， 只 有 缓冲 区 为 空 时 才 会 读 取 人 磁盘 重新 加 载 缓冲 区 。 这 
有 点 类 似 于 Linux 文 件 系统 的 预 读 机 制 。 


使 用 缓 神 区 进行 文件 扫 摘 的 算法 流程 如 图 3-3 所 示 。 


从 缓冲 区 取 一 个 字符 


3-3” 扫 摘 姨 算 法 


扫描 硕 使 用 80 字 节 长度 的 缓 神 区， 每 次 从 缓冲 内 读 取 字 符 ， 如 果 
缓冲 区 为 至 ， 则 从 源 文 件 内 加 载 新 的 80 字 数据 到 缓冲 区 ， 直 到 文件 
读 取 完毕 。 算 法 的 实现 代码 如 下 : 


1 #define BUFLEN 80 / /缓冲 区 大 小 
2 int 1LineLen=0， / /缓冲 区 内 的 数据 长 度 
// 读 取 位 置 


3 int readPos=-1; 


Xl 


4 char line[BUFLEN]; / /缓冲 


5 int lineNum=1; // 行 号 
6 int colNum=0; // 列 号 
7 char lastch=ch; // 上 一 个 字符 


8 char scan 


(FILE*file){ 

9 if(!file) // 没 有 文件 

10 return -1; 

11 if(readPos==]lineLen-1){ / /缓冲 区 读 取 完 毕 
12 lineLen=fread 

(line,1,BUFLEN, file); / /重新 加 载 缓冲 区 数据 

13 if(1LineLen==0){ / /没有 数据 了 
14 lineLen=1; / /数据 长 度 为 
1 

15 line[0]=-1; / /文件 结束 标记 
16 

17 readPos=-1; / /恢复 读 取 位 置 
18 } 

19 readPos++; / /移动 读 取 点 
20 char ch=line[readPos]; / /获取 新 的 字符 
21 if(lastch=="'\n'){ // 新 行 

22 lineNum++; // 行 号 累加 

23 coOlNum=0， // 列 号 清空 

24 

25 if(ch==-1){ / /文件 结束 ， 自 动 关 闭 
26 fclose(file); 

27 file=NULL; 

28 


} 
29 else if(ch!='\n') / /不 是 换行 


30 CO1LNum++ // 列 号 递增 


31 lastch=ch; / /记录 上 一 个 字符 
32 return ch; / /返回 字符 
33 } 


第 9 行 判 断 文 件 指针 有 是否 为 空 ， 如 采 为 空 ， 则 直接 返回 文件 结束 


何 = * 


第 11 行 判断 读 取 位 置 readPos 是 否 到 达 绥 冲 区 内 数据 的 末尾 ， 如 果 
是 ， 则 使 用 fread 库 函数 重新 加 载 缓冲 区 ， 读 入 BUFLEN 字 节 数 据 。 


第 13 行 判断 fread 的 返回 值 ， 如 果 lineLen 等 于 0， 则 说 明文 件 结 
束 。 此 时 将 lineLen 设 置 为 1， 并 在 组 神 区 内 保存 一 个 特殊 字符 -1， 表 
示 文 件 结束 。 


第 17 行 将 readPos 重 置 为 1， 从 文件 中 将 数据 加 载 到 缓冲 区 后 ， 从 
缓冲 区 的 开始 处 读 字符 。 


第 19~20 行 累加 读 取 位 置 readPos， 并 将 缓冲 区 内 readPos 位 置 的 字 
符 保存 到 ch 中 。 


第 21~24 行 判断 ， 才 上 一 个 字符 是 换行 符 ， 则 将 行 号 加 1， 列 号 清 


第 25~28 行 判断 ， 寿 当前 字符 是 文件 结束 符 ， 则 将 文件 关闭 ， 文 
件 指 针 置 为 NULL。 之 后 ， 如 有 果 再 次 调用 scan， 根 据 第 9 行 的 判断 ， 扫 
描 郁 将 仍 返 回 特殊 字符 -1。 


第 29~30 行 判断 ， 奉 当前 字符 不 是 换行 符 则 将 列 豆 加 1。 


第 31 行 将 扫描 过 的 字符 保存 到 lastch， 这 样 扫描 下 一 个 字符 时 ， 
lastch 总 是 保存 了 上 次 扫描 到 的 字符 。 


第 32 行 返回 当前 扫描 到 的 字符 。 


通过 对 扫描 颖 算法 scan 的 不 断 调 用 ， 可 以 将 源 文 件 转化 为 线性 的 
字符 序列 ， 为 解析 亏 提 供 输入 。 不 过 在 展开 对 解析 需 的 讨论 前 ， 需 要 
明确 词法 记号 的 定义 。 


312 词法 记 坊 


词法 记号 是 高 级 语言 代码 的 基本 单位 ， 可 以 认为 高 级 语言 代码 是 
词法 记号 按照 一 定 规则 的 组 合 。 词 法 记号 通 第 可 以 分 为 标识 符 、 天 键 
字 、 篆 量 、 界 符 四 大 类 ， 高 级 语言 的 定义 对 词法 记号 的 定义 有 直接 影 
啊 。 不 同 语言 对 标识 符 的 定义 不 同 ， 如 Visual Basic 不 区 分 标识 符 的 大 
小 写 ，C 语 言 区 分 标识 符 的 大 小 写 。 不 同 语言 的 关键 字 表 也 不 尽 相同 ， 
如 在 C 语 言 内 不 存在 C++ 的 Virtual 天 键 字 。 不 同 语言 的 弄 符 定 义 不 同 ， 
PASCAL 的 赋值 运算 符 为 “=”， 而 C 语 言 的 赋值 运算 符 为 “=? 等 。 


本 书 编译 系统 处 理 的 目 定义 语言 的 词法 记号 如 下 : 


1) 类 型 系统 。 支 持 int、char、void 基 本 类 型 和 一 维 指针 、 一 维 数 
组 类 型 。 涉 及 的 词法 记号 有 关键 字 int、char、void， 指 针 运 算 符 为 ”*# 
′， 取 址 运算 符 为 ”&′， 数 组 索引 运算 符 为 ”[” 和] 。 


2) 常量 。 字 符 常量 、 字 符 串 常量 、 二 //V 十 进 制 整数 。 涉 及 的 词 
Ar A 且 . 


法 记号 有 数字 常量 num、 字 符 常 量 ch、 字 符 串 常量 str。 与 常量 对 应 的 变 


量 使 用 标识 符 表 示 ， 因 此 标识 符 id 也 是 词法 记号 。 


3) 表达 式 。 文 持 加 、 减 、 乘 、 除 、 取 模 、 取 人 负 、 自 加 、 目 减 算 术 
运算 ， 大 于 、 大 于 等 于 、 小 于 、 小 于 等 于 、 等 于 、 不 等 于 关系 运算 
和 “与 ”`\“ 或 ”`\“ 非 ?逻辑 运算 。 涉 及 的 词法 记号 有 + ， 一， * 


/ 二 二 / i . 党 | ef / RRr | 天 上 ， 世 | / 8 注意 这 里 
的 乘法 运算 符 和 指针 运算 符 征 同一 个 字符 ， 在 词法 分 析 亏 内 它们 被 视 
为 同一 个 词法 记号 。 同 理 ， 减 法 运算 符 和 取 负 运算 符 也 是 如 此 。 


4) 语句 。 支 持 赋值 语句 ，do-while、while、for 循 环 语句 ，if- 
else、switch-case 条 件 分 文 语句 ， 玉 数 调用 、return、break、continue 语 
人 句 。 涉 及 的 词法 记号 有 赋值 运算 符 ′” =′， 天 键 字 do、while 、for、if、 
else、Switch、case、default、return、break、continue。 另 外 ， 复 合 语句 
或 函数 体 需要 使 用 花 括 号 包含 起 来 ， 基本 语句 都 是 以 分 号 结束 ;case 和 
default 关 键 字 后 使 用 冒号 分 隔 ， 因 此 词法 记号 还 包含 ” {  、 ” ] 分 


及 划 


5) 声明 与 定义 。 支 持 extem 变 量 声 明 、 画 数 声 明 ， 变 量 、 函 数 定 
义 。 涉 及 的 词法 记号 有 extern 关 键 字 ，” (′ 和 和”) ′， 注 意 小 括号 也 
可 能 出 现在 表达 式 中 。 男 外 ， 变 量 定 义 列表 和 函数 的 参数 列表 部 使 用 


过 号 分 阳 ， 因 此 逗号 古 词法 记号 。 


6) 其 他 。 支 持 默认 类 型 转换 、 单 行 和 多 行 注 释 等 。 默 认 类 型 的 转 
换 属于 代码 生成 部 分 的 内 容 ， 注 释 不 是 有 效 的 词法 记号 。 不 过 除了 以 
上 提 到 的 词法 记号 之 外 ， 还 需要 引入 两 个 特殊 的 词法 记号 。err 表 示 词 
法 分 析出 错时 返回 的 词法 记 和 号， 词法 分 析 占 或 语法 分 析 右 部 目 动 忽 略 
这 个 词法 记 和 号 。 此 外 ， 使 用 词法 记号 end 表 示 文 件 结 


于 是 ， 目 定义 语言 涉及 的 所 有 词法 记号 如 表 3-1 所 示 。 


表 3-1 词法 记号 


| We | Sx | Hm | Ws [| Ex 
div / 
标识 符 标识 各 mod - 


kw char char and 到 区 
kw _ void void or 11 


ke extern extern assign = 
kw if gt > 


kw else 界 符 ge = 
kw switch switch 在 马 荣 


关键 字 le < 
kw_default ea 要 
neau 上 = 


kw_ do comma 


colon 


kw break break semicon 
kw_ continue continue lparen 


kw return return rparen 


add lbrac 


界 符 
sw | | rbrac 


< 呈 | 一 | 一 | 一 ||， 


我 们 使 用 一 个 枚 举 类 型 记录 所 有 的 词法 记号 标签 ， 为 后 面 的 代码 


2 词法 记号 标签 


3 */ 
4 enum Tag 


5 ERR, / /错误 ， 异常 
6 END, / /文件 结束 标记 
7 ID， // 标 识 符 
8 KW_INT, KW_CHAR, KW_VOID, / /数据 类 型 
9 KW_EXTERN, //extern 
10 NUM, CH, STR, // 常 量 
eh NOT, LEA, // 单 目 运算 

| &-* 
12 ADD, SUB, MUL, DIV, MOD, / /算术 运算 符 
13 INC, DEC， // 自 加 自 减 
14 GT, GE, LT, LE, EQU, NEQU, // 比 较 运算 符 
15 AND, OR, / /逻辑 运算 
16 LPAREN, RPAREN, //() 
17 LBRACK, RBRACK., //[] 
18 LBRACE, RBRACE, //{} 
19 COMMA, COLON, SEMICON, / /逗号 
/ 冒号 
/分 号 
20 ASSIGN, / /赋值 
21 KW_IF, KW_ELSE， //if-else 
22 KW_SWITCH, KW_CASE, KW_DEFAULT, //swicth-case- 
deault 
23 KW_WHILE, KW_DO, KW_FOR, / /循环 
24 KW_BREAK, KW_CONTINUE, KW_RETURN 
//break,continue,return 
25 }; 


注意 Tag 枚 举 类 型 内 保存 的 词法 记号 标签 都 是 大 写 ， 以 避免 与 C 语 
言 天 键 字 冲突 。 关 键 字 标签 都 是 以 KW_ 开 始 ， 界 符 标 签 被 分 配 了 合适 
Es 


词法 记号 标签 只 是 区 分 了 不 同 的 词法 记号 ， 而 对 一 些 特殊 的 词法 
记号 ， 如 标识 符 、 和 常量 等 除了 需要 保存 词法 记号 标签 信息 外 ， 还 要 保 
存 标识 符 名 称 、 和 音量 值 等 信息 ， 以 用 来 构造 符号 表 。 我 们 采用 面 癌 对 
象 的 思想 来 设计 与 词法 记号 相关 的 类 。 


如 图 3-4 所 示 ， 基 类 Token 表 示 一 般 的 词法 记号 ， 它 只 包含 一 个 公有 
字段 tag， 用 于 记录 词法 记号 的 标签 。Token 有 四 个 派生 类 Id、Num、 
Char、Str， 分 别 对 应 标识 符 、 数 字 常 量 、 字 符 和 常量 、 字 符 串 常量 。 其 
中 Id 的 公有 字段 name 记 录 了 标识 符 的 名 称 ，Num 的 公有 字段 val 记 录 了 
数字 常量 的 值 ，Char 的 公有 字段 ch 记录 了 字符 常量 的 值 ，Str 的 公有 字 
段 stri 记 录 了 字符 串 常量 的 值 。 


-keywords : hash_map ee (| 


+Keywords() 
+getTag() : Tag 


图 3-4 ”词法 记号 类 图 


与 Id 关联 的 是 Keywords 类 ， 它 的 公有 字段 keywords 是 教 列 表 类 型 ， 
记录 了 目 定 义 语 言 定 义 的 所 有 关键 字 。Keywords 的 实例 化 类 型 为 
hash_map<string，Tag，string_hash>， 它 记录 了 关键 字 名 称 与 关键 字 词 
法 记号 标签 的 映射 天 系 。 如 此 设计 的 原因 是 关键 字 在 词法 分 析 堪 内 可 
以 看 作 一 类 特殊 的 标识 符 ， 词 法 分 析 器 在 创建 标识 符 词 法 记号 对 象 之 

前 只 需要 使 用 getTag 方 法 查询 Keywords 内 保存 的 关键 字 表 ， 便 可 以 确定 
是 创建 Id 对 象 还 是 普通 的 关键 字 词法 记号 Token 对 象 。 


按照 上 述 类 的 设计 ， 我 们 实现 了 词法 记号 相关 的 类 ， 代 码 如 下 : 


/* 
词法 记号 类 


DP 


CD 


Wp 
4 class Token 


5 苹 
6 public: 
7 


Tag tag; / /内 部 标签 
8 Token (Tag t); 
9 Virtual string toString(); 
10 Virtual ~Token (); 
11 } 
12 / 


3 标识 符 记号 类 


14 */ 
15 class Id 


:public Token 


6 

17 public: 

18 string name; 

19 Id (string n); 

20 Virtual string toString(); 
21 }; 

22 /* 


23 ”数字 记号 类 


24 */ 
25 class Num 


:public Token 


{ 
27 public: 
28 int val,; 
29 Num (int v); 
30 virtual string toString(); 


34 */ 
35 class Char 
:public Token 
{ 
37 public: 
38 char ch 


39 Char (char c); 
40 virtual string toString(); 


43 ”字符 串 记 号 类 


44 */ 
45 class Str 


:public Token 


46 { 

47 public: 

48 string str,; 

49 Str (string s); 

50 Virtual string toString(); 
51 }; 

52 

53 /* 

54 ”关键 字 表 类 

55. */ 


56 class Keywords 


57 { 

58 /V/hash 画 数 
59 //struct 
string_hash{ 

60 size_t operator()(const string& str) const{ 

61 return __st] hash_string(str.c_str()); 

62 } 

63 }; 

64 hash_map<string, Tag, string_hash> keywords; 

65 public: 

66 Keywords(); / /关键 字 表 初始 化 
67 Tag getTag(string name ) ， / /测试 是 否 是 关键 字 


68 }; 


确定 了 词法 记号 后 ， 接 下 来 便 是 将 扫描 右 输 出 的 字符 序列 转化 为 
词法 记号 的 序列 ， 这 一 步 由 解析 器 完成 。 如 图 3-1 所 示 ， 解 机 器 读 入 

， 使 用 有 限 目 动机 对 输入 字符 进行 匹配 ， 最 终 输 出 词法 记号 。 因 此 
在 描述 解析 器 实现 之 前 ， 还 需要 了 解 如 何 构造 词法 记号 的 有 限 上 自动 
机 。 


3.1.3 有限 自动 机 


在 编译 原理 的 教材 中 ， 对 有 限 自 动机 的 描述 十 分 详细 ， 因 此 我 们 
假定 读者 了 解 这 方面 的 知识 。 有 限 自 动机 识别 的 语言 称 为 正则 语言 ， 
有 限 自动 机 分 为 确定 的 有 限 自动 机 (DFA) 和 非 确定 的 有 限 自动 机 
(NFA) 两 种 。DFA 和 NFA 都 可 以 描述 正则 语言 ，DFA 规 定 只 能 有 一 个 
开始 符号 ， 且 转移 标记 不 能 为 空 ， 其 代码 实现 较为 方便 。 由 于 每 个 
NFA 都 可 以 转化 为 一 个 DFA， 本 书 的 词法 分 析 器 统一 使 用 DFA 描 述 前 面 
定义 的 所 有 词法 记号 。 


1. 标 识 符 


在 第 2 章 中 曾 描述 过 标识 符 的 有 限 目 动机 ， 作 为 词法 分 析 过 程 的 例 
子 。 对 于 任意 DFA 总 有 一 个 唯一 的 开始 状态 0， 它 的 输入 是 一 串 字符 序 
列 ， 根 据 字符 选择 不 同 的 转移 进入 下 一 个 状态 ， 当 过 到 结束 状态 时 接 
收 已 输入 的 字符 串 。 如 图 3-5 所 示 ， 标 识 符 从 开始 状态 起 ， 当 读 人 下 划 
线 或 字母 时 进入 状态 id， 状 态 id 是 结束 状态 ， 其 本 身 也 可 以 接收 任意 多 
个 下 划 线 、 字 母 和 数字 ， 当 读 入 其 他 不 能 识别 的 字符 时 便 停 止 自 动机 
的 识别 过 程 。 这 正好 符合 C 语 言 对 标识 符 的 定义 : 以 下 划 线 或 字母 开始 
的 任意 下 划 线 、 字 母 和 数字 组 合 的 字符 串 。 


_|A-Z la-z|0-9 


_|A-Z la-z 
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图 3-5 ”标识 特有 限 目 动机 
2. 关 键 字 


关键 字 是 一 类 特殊 的 词法 记号 ， 本 质 上 与 标识 符 没有 任何 区 别 ， 
只 是 词法 分 析 器 将 之 作为 系统 保留 的 标识 符 ， 不 允许 用 户 重新 定义 。 
我 们 在 分 析 标 识 符 结 束 后 可 以 查询 关键 子 表 ， 来 确定 当前 识别 的 标识 
符 是 普通 的 标识 符 还 是 关键 字 。 表 3-2 描 述 了 目 定 义 语 言 中 所 有 的 关键 


表 3-2 ”关键 字 表 


关键 字 字符 串 值 词法 标签 
int "EE" KW_INT 
char Wanar” KW CHAR 
void "void" KW VOID 
extern "extern" KE EXTERN 
双生 本 十 生 虹 KW IF 
else "else" KW ELSE 
switch "switch" KW SWITCH 
case "case" KW CASE 
default "default" KW DEFAULT 
while "while"™ KW WHILE 
do "do" KW DO 
foFr RE KW _ FOR 
break "break" KW BREAK 
continue "continue" KW _ CONTINUE 
return ne KW RETURN 


3. 利 量 


常量 词法 记号 有 三 种 : num、ch 和 str， 它 们 分 别 对 应 数字 常量 、 字 
符 弟 量 和 字符 串 利 量 。 以 下 分 别 摘 述 这 三 种 常量 的 目 动机 结构 。 


对 于 数字 季 量 ， 本 书 仅 考 虑 整数 音量 ， 文 持 十 进 制 、 二 进 制 、 八 
进 制 和 十 六 进 制 整 数 。 整 数 的 定义 可 以 简单 地 认为 是 数 子 0~9 的 任意 组 
合 。 对 不 同 进 制 的 整数 的 定义 如 下 。 


1) 十 进 制 整数 ， 以 数字 1~9 开 始 ，0~9 中 任意 个 数字 组 合 的 字符 


好 


2) 八进制 整数 : 以 数字 0 开始 ，0~7 中 任意 个 数字 组 合 的 字符 串 。 
这 也 是 为 什么 十 进 制 整数 不 能 以 0 开始 ， 因 为 会 与 八进制 整数 的 定义 冲 


3) 二 进 制 整数 : 以 字符 串 “0b” 开 始 ，0~1 中 任意 个 数字 组 合 的 字 


4) 十 六 进 制 整 数 : 以 字符 串 “0x” 开 始 的 ，0~9 及 字母 avf、A~F 中 


一 个 或 多 个 数字 、 字 母 组 合 的 字符 串 。 


整数 的 有 限 目 动机 如 图 3-6 所 示 ， 其 中 结束 状态 d-num、o-num、Pb- 
num 和 Ph-num 分 别 表 示 十 进 制 、 八 进 制 、 二 进 制 、 十 六 进 制 整数 的 目 动 
机 结束 状态 。 结束 状态 err 表 示 目 动机 识别 过 程 中 出 现 词法 错误 时 到 达 
的 状态 ， 一 旦 进入 err 状 态 便 停止 自动 机 ， 报 告 对 应 的 词法 错误 。 整 数 
有 限 目 动机 从 状态 0 开始 ， 当 读 入 字符 1~9 时 ， 进 入 d-num 状 态 进行 十 进 
制 整数 的 识别 。 当 读 入 字符 0 时 转移 到 0-num 状 态 ， 然 后 继续 读 入 子 
符 ， 如 果 有 是 0~7 则 识别 八进制 整数 ， 如 采 读 入 字符 b 则 进行 二 进 制 整 效 
的 识别 ， 如 有 宁 读 入 字符 x 则 进行 十 六 进 制 整数 的 识别 。 


0-9|A-Fla-f 
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其 他 
rr) 
其 他 


图 3-6 ”整数 有 限 目 动机 


转 义 。 比 如 a” 和 “wn” 都 是 合法 的 字符 。 


图 3-7 描 述 了 字符 有 限 目 动机 的 结构 ， 其 中 状态 ch 为 识别 字符 的 结 
束 状 在，er 为 错误 状态 。 字 符 有 限 目 动机 从 状态 0 开始 ， 谈 入 一 个 单 引 
号 字符 进入 状态 1。 再 次 读 入 通 字符 进入 状态 3， 或 者 读 入 字符 
“\” 和 为 一 个 字符 进行 园 义 字符 的 识别 ， 如 果 读 入 的 字符 是 换行 符 、 
文件 结束 符 或 单 引号 则 报错 。 我 们 定义 的 字符 转 义 字符 包括 ”\n”、“ 
WW ~、 0 和 ， 换 行 待 和 文件 结束 符 是 不 能 转 义 的 ， 未 
定义 的 转 义 字符 作为 普通 字符 对 待 ， 转 义 字 符 的 处 理 在 状态 2 处 完成 。 


状态 3 表示 识别 了 一 个 正常 的 字符 ， 然 后 再 读 入 一 个 单 引号 完成 字符 词 
法 记号 的 识别 ， 除 此 之 外 则 报告 词法 错误 。 


'|\n|-1 


et 


图 3-7 字符 有 限 日 动机 


字符 串 有 限 日 动机 如 图 3-8 所 示 ， 其 中 状态 str 为 识别 字符 串 的 结束 
状态 ，err 为 错误 状态 。 字 符 吕 有 限 目 动机 从 状态 0 开始 ， 谈 入 一 个 双 引 
字符 进入 状态 1。 状 态 1 可 以 接收 任意 多 个 普通 字符 ， 如 果 此 时 读 入 


号 
字符 ”\” 和 另 一 个 字符 ， 则 进入 状态 2 进行 转 义 字符 的 识别 ， 如 人 条 读 入 
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括 mn Nt 、“\0” 、“ 昼 行 ” 和 “\”， 其 中 “\ 换 行 
”是 对 换行 符 转 义 ， 表 示 字 符 串 内 换行 ， 文 件 结束 符 是 不 能 转 义 的 ， 

未 定义 的 转 义 字符 作为 普通 字符 对 待 ， 转 义 字 符 的 处 理 在 状态 2 处 完成 
后 回 到 状态 1 继续 处 理 。 处 于 状态 1 时 ， 只 要 读 入 一 个 双 引 号 便 完成 了 


字符 串 词 法 记号 的 识别 。 


图 3-8 字符 串 有 限 目 动机 


4. 界 符 


词法 记号 中 的 界 符 数 量 较 多 ， 但 是 形式 无 外 乎 两 种 : 单字 节 界 符 
和 双 字 市 界 符 。 比 如 “%” 是 单字 市 界 从 ,，“>=” 是 双 字 让 罕 人 符 。 界 符 的 有 
限 目 动机 结构 比较 简单 。 


单字 市 界 符 有 限 目 动机 如 图 3-9a 所 示 ， 取 模 运 算 符 有 限 目 动机 读 入 
一 个 字符 ”9% ”后 进入 绪 束 状态 ， 完 成 词法 记号 mod 的 识别 。 双 字 世 有 办 
从 有 限 目 动机 如 图 3-9b 所 示 ， 大 于 /大 于 等 于 运算 符 有 限 目 动机 读 入 字 
符 ′” >” 进入 结束 状态 gt， 此 时 产生 词法 记号 gt。 但 是 按照 “贪心 ”的 原 
则 ， 此 时 目 动 机 如 末 读 入 字符 ”=′”， 则 进入 结束 状态 ge， 产 生词 法 记 
号 ge。 其 他 类 型 的 界 符 的 有 限 目 动机 结构 类 似 ， 这 里 束 不 必 一 一 列举 
了 。 


图 3-9 有 界 竺 有 限 目 动机 


我 们 设计 的 词法 记号 中 单字 节 界 符 包括 +、 - 、 *”、/ 
a 
2 
束 符 -1， 双 字 节 界 符 包 插 ++、 、 >= 、 <= 、 = 
”、“! =”、”&&” 和 ||。 需要 注意 的 是 ， 界 符 ′/′ 除 了 作为 除 
法 运算 符 外 ， 还 可 以 作为 单行 /多 行 注释 的 开始 。 界 符 ′||” 在 读 入 第 一 
个 字符 ′|” 时 并 不 能 被 自动 机 接收 ， 因 为 我 们 没有 定义 词法 记号 ”| 


* 


5. 无 效 词法 记号 
除了 以 上 的 词法 记号 外 ， 还 有 两 类 目 动机 没有 涉及 ， 因 为 它们 并 
不 产生 真正 的 词法 记号 ， 我 们 称 为 无 效 词法 记号 。 一 类 是 空白 字符 


(空格 、 制 表 符 、 换 行 符 ) ， 男 一 类 是 注释 。 参 考 C 语 言 的 特点 ， 所 有 
有 效 词法 记号 之 间 可 以 出 现任 意 多 个 空白 字符 和 注释 。 


空格 |\+|\n 


二 = 


图 3-10 ”空白 字符 有 限 目 动机 


如 图 3-10， 空 白字 符 的 有 限 自 动机 非常 简单 ， 它 只 有 一 个 状态 ， 即 
开始 状态 亦 是 结束 状态 ， 并 接收 任意 多 个 空格 、“\t” 和 \n”。 前 面 
描述 的 有 限 自 动机 识别 结束 后 都 会 产生 一 个 词法 记号 ， 那 么 空 晶 字符 
的 有 限 目 动机 识别 结束 后 应 该 如 何 处 理 呢 ?有 两 种 方式 可 以 选择 ， 一 
种 是 不 产生 任何 词法 记号 ， 识 别 结束 后 继续 识别 其 他 词法 记号 。 另 一 
种 方式 是 产生 词法 记号 err， 因 为 词法 记号 err 会 被 词法 分 析 器 或 语法 分 
析 句 自动 忽略 。 前 面 的 有 限 自动 机 在 识别 出 错时 都 会 产生 词法 记号 


err， 因 此 不 会 影响 后 续 词 法 记号 的 识别 。 


如 图 3-11 所 示 ， 注 释 有 限 目 动机 从 开始 状态 0 读 入 字符 ”/” 后 进入 
结束 状态 div， 此 时 可 以 识别 除法 运算 词法 记号 div。 但 是 按照 < 贪心 " 规 
则 ， 如 果 此 时 读 入 字符 ”/” 或 “*” 则 进入 单行 /多 行 注 释 的 识别 过 
程 。 单 行 注释 内 容 在 状态 1 处 处 理 ， 此 时 读 入 任意 一 行内 容 ， 直 到 过 到 
换行 符 或 文件 结束 符 后 进入 结束 状态 s-com， 识 别 单行 注释 。 多 行 注 释 
内 容 在 状态 2 处 处 理 ， 此 时 可 以 读 入 任意 长 度 的 内 容 ， 当 读 入 文件 结束 


符 时 产生 词法 错误 ， 当 读 入 字符 ”*” 时 进入 状态 3。 状 态 3 处 如 果 读 入 
字符 ”/” 进 入 结束 状态 m-com， 识 别 多 行 注 释 ， 如 采 仍 读 入 字符 ”=* 
则 继续 保持 在 状态 3， 人 否则 返回 状态 2。 状 态 3 可 以 接收 任意 多 个 字符 “ 
* ”证 为 了 避 人 钢 出 现 “/*.……**/" 字 符 各 不 能 被 识别 为 注释 的 情况 。 这 里 
需要 注意 的 是 ， 多 行 注释 不 能 出 现 幅 套 的 情况 ， 购 套 多 行 注释 不 能 被 
有 限 目 动机 识别 ， 因 为 超出 了 正则 文法 的 摘 述 能 力 ， 属 于 上 下 文 无 天 
文法 。 
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图 3-11 注释 有 限 目 动机 


无 论 是 单行 注释 还 是 多 行 注释 ， 识 别 结 束 后 都 会 返回 词法 记 和 与 
err。 这 与 空 日 子 符 有 限 目 动机 的 处 理 有 所 区 别 ， 因 为 注释 的 有 限 目 动 
机 包含 了 除法 运算 符 词 法 记号 的 识别 ， 为 了 保持 代码 的 一 致 性 ， 该 目 
动机 不 得 不 返回 一 个 词法 记号 。 


3.1.4 解析 器 


解析 器 的 输入 是 扫描 器 产生 的 线性 字符 序列 ， 而 输出 是 词法 记 和 与 
序列 。 解 析 器 的 构造 依赖 于 词法 记号 有 限 目 动机 的 实现 ， 词 法 记号 的 
有 限 自 动机 构造 完毕 后 ， 便 可 以 编码 实现 解析 器 (真正 意义 上 的 词法 
分 析 器 ) ， 完 成 词法 记号 的 解析 。 


根据 有 限 自动 机 实现 词法 分 析 器 一 般 有 两 种 方式 ， 基 于 表 驱 动 的 
方式 和 硬 编码 方式 。 基 于 表 驱 动 方式 的 词法 分 析 需 要 为 词法 记号 建立 
状态 转移 表 ， 而 硬 编码 方式 的 词法 分 析 则 使 用 程序 控制 结构 直接 实现 
词法 分 析 。 


1. 基 于 表 驱 动 的 词法 分 析 


表 3-3 征 有 限 目 动机 的 状态 转移 表 ， 这 里 主要 描述 了 标识 符 有 限 目 
动机 的 状态 转移 ， 其 他 词法 记号 有 限 目 动机 的 状态 和 转移 被 简化 处 
理 。 表 格 的 第 一 列表 示 目 动机 的 当前 状态 ， 表格 的 第 一 行 表 示 目 动机 
读 入 的 当前 字符 ， 即 状态 转移 弧 上 的 字符 ， 单 元 格 内 表示 目 动机 将 要 
进入 的 下 一 个 状态 ， 这 个 关系 正好 与 自动 机 的 基本 结构 对 应 。 


表 3-3 ”状态 转移 表 


id | id id | 数字 | 其 他 


id id id id id accept 


目 动机 从 状态 0 开始 ， 如 果 读 入 的 字符 是 ” “或 ”a-z” 中 的 任意 
一 个 小 写字 母 ， 或 ” A-Z ”中 的 任意 一 个 大 写字 母 ， 查 询 状态 转移 表 得 
到 下 一 个 状态 为 ia。 转 移 到 状态 id， 继 续 读 入 的 字符 如 果 是 ” ”或 小 
写字 母 、 大 写字 母 或 ”0-9 ”中 的 数字 ， 则 仍 进入 状态 id， 否 则 转移 到 
accept 状 态 。accept 是 一 个 特殊 的 状态 ， 它 表示 除了 当前 读 入 字符 之 外 
的 所 有 已 读 入 字符 构成 目 动机 识别 的 字符 串 。 此 时 词法 分 析 偶 根据 进 
入 accept 状 态 的 那个 状态 (状态 id) 决定 词法 记号 的 处 理 结果 ， 即 产生 


标识 符 的 词法 记号 。 


需要 注意 的 是 ， 在 进入 accept 状 态 时 读 入 的 字符 并 不 是 自动 机 已 经 
接受 的 字符 。 因 此 ， 在 后 续 的 词法 记号 目 动 机 识别 的 过 程 中 ， 需 要 重 
新 读 入 当前 字符 ， 以 避免 当前 读 入 字符 被 跳 过 。 为 此 ， 每 次 查询 状态 
转移 表 之 前 并 不 读 入 新 的 字符 ， 而 是 假定 字符 已 经 读 入 。 那 么 目 动 机 
开始 运行 时 ， 需 要 将 当前 字符 初始 化 为 空格 (或 者 *\n ，“\t” )， 
这 样 目 动机 局 动 后 会 首先 进入 罕 日 字符 有 限 目 动机 的 处 理 ， 识 别 这 个 


空白 字符 。 


基于 表 张 动 的 词法 分 析 的 伪 代 码 摘 述 如 下 : 


1 cur_char=' '"，; / /初始 
字符 为 空格 


2 Token* Lexer::tokenize 


(){ / /词法 记号 解析 


3 cur_state=0; / /初始 


4 while(1){ // 启 动 
有 限 自动 机 


5 next_state=table[cur_state,cur_char]; // 查 表 
获取 下 一 个 状态 


6 if(next_state==accept){ / /接受 


7 return process 


(cur_state); / /处 理 接受 状态 
9 else if(next_state==error){ / /错误 


10 return lex_error 


(cur_state, cur_char); / /词法 错误 处 理 
} 
12 elsef // 正 常 


13 handle_state 
(cur_state, cur_char); // 处 理 当 前 状态 
14 cur_state=next_state; // 进 入 


15 cur_char=scan 


(file); / /扫描 获 取 下 一 个 字符 


第 1 行将 当前 读 入 字符 初始 化 为 空格 ， 这 样 第 一 次 调用 tokenize 时 
会 执行 空白 字符 自动 机 识别 的 过 程 。 


第 3 行将 当前 状态 初始 化 为 开始 状态 0， 开 始 词法 记号 的 解析 过 
程 。 
第 5 行 查 询 状 态 转 移 表 table， 行 索引 为 cur_state， 列 索引 为 


cur_char ° 
第 6~8 行 处 理 accept 状 态 ， 返 回 词法 记号 。 
第 9~11 行 处 理 err 状 态 ， 进 行 词法 错误 处 理 。 


第 12~16 行 处 理 正常 的 状态 转移 ， 首 先 处 理 当前 状态 和 已 经 接受 的 
字符 ， 比 如 计算 数字 常量 的 值 、 处 理 转 义 字符 等 。 然 后 设 定 cur_state 为 
查询 得 到 的 下 一 个 状态 ， 调 用 扫描 器 读 入 下 一 个 字符 ， 回 到 第 6 行 继续 
词法 记号 解析 。 


使 用 状态 转移 表 进 行 词 法 分 析 的 实现 束 是 查询 状态 转移 表 、 状 态 
比较 和 状态 处 理 的 过 程 ， 实 现 简 单 。 词 法 分 析 融 的 目 动 生成 工具 一 般 
都 采用 这 种 方法 。 词 法 分 析 器 目 动 生成 工具 根据 用 户 提 供 的 词法 记号 
定义 配置 文件 ， 建 立 词法 记号 有 限 目 动机 NFA， 然 后 将 NFA 确 定 化 为 
DFA， 再 将 DFA 最 小 化 ， 生 成 状态 转移 表 ， 最 后 按照 上 述 过 程 进行 词法 


分 析 。 然 而 ， 主 流 的 编译 右 并 未 采用 表 驱 动 的 词法 分 析 方 式 ， 而 是 采 
用 硬 编码 的 方式 ， 可 能 考虑 了 以 下 因素: 


1) 保存 状态 转移 表 需 要 大 量 的 存储 空间 ， 构 建 状态 转移 表 对 词法 
记号 的 定义 有 很 强 的 依赖 ， 一 旦 更 改 了 词法 记号 的 定义 ， 状 态 转 移 表 
变化 很 大 ， 不 利于 代码 维护 。 


2) 基于 表 张 动 的 词法 分 析 过 程 形式 虽然 简单 ， 但 是 灵活 性 较 产 ， 
不 利于 对 特定 状态 的 目 定 义 处 理 。 所 有 词法 记号 有 限 目 动机 的 状态 转 
移 在 代码 层面 形式 基本 相同 ， 导 致 代码 的 可 读 性 较 莽 ， 调 试 不 够 方 
全 才 


3) 基于 表 虹 动 的 词法 分 析 在 每 次 读 入 一 个 字符 后 都 会 发 生 状态 转 
移 ， 大 量 的 查 表 、 状 态 比 较 和 状态 处 理 降 低 了 词法 分 析 屁 的 性 能 。 


因此 ， 本 书 采用 硬 编码 的 方式 构建 词法 分 析 器 。 


2. 便 编码 方式 的 词法 分 析 


与 基于 表 张 动 方式 的 词法 分 析 不 同 的 是 ， 硬 编码 方式 的 词法 分 析 
不 需要 显 式 地 确立 有 限 目 动机 的 状态 ， 它 使 用 程序 的 控制 结构 直接 对 
词法 记号 进行 解析 ， 即 根据 词法 记号 本 身 的 含义 ， 使 用 代码 解析 词法 
记号 的 内 容 。 


我 们 仍 以 标识 符 为 例 ， 再 次 分 析 标 识 符 的 定义 : 以 下 划 线 、 字 母 
开始 的 任意 多 个 下 划 线 、 字 母 和 数字 组 合 的 字符 串 。 首 先 对 一 个 标识 
符 从 概念 上 进行 拆 分， 一 个 合法 的 标识 符 包含 两 部 分 : 标识 符 的 第 一 
部 分 是 一 个 字符 ， 它 可 能 是 下 划 线 或 字母 。 标 识 符 的 第 二 部 分 可 以 是 
任意 长 度 的 字符 串 ， 但 是 字符 串 内 的 每 个 字符 必须 是 下 划 线 、 字 母 或 
数字 。 根 据 这 样 的 拆 分 ， 很 容易 发 现 解析 标识 符 的 控制 结构 。 首 先是 
一 个 判断 语 名 ， 判 定 读 入 的 字符 是 不 是 下 划 线 或 字母 ， 以 确定 开始 识 
别 标识 待 。 然 后 是 一 个 循环 语句 ， 期 望 读 入 更 多 的 下 划 线 、 字 母 或 数 
字 。 其 伪 代 码 描述 如 下 : 


工 ( ch== 下 划 线 

Or 字母 

){ 
ch=scan(file); 
while(ch== 下 划 线 

Or 字母 

Or 数字 

){ | 

ch=scan(file); 
} 


| 


这 样 的 便 编 码 方式 与 表 弛 动 方式 识别 出 的 字符 串 完 全 等 价 ， 而 
不 需要 考虑 有 限 目 动机 的 状态 转移 ， 也 完全 消除 了 查 表 、 判 断 状态 等 
操作 。 其 实 ， 硬 编码 中 的 程序 控制 语句 已 经 缠 含 了 有 限 上 自动 机 状态 的 
转移 信息 。 


我 们 对 有 限 目 动机 做 如 下 处 理 : 将 有 限 目 动机 的 状态 转化 为 一 个 
标号 ， 将 每 条 状态 转移 弧 转 化 为 一 条 跳 转 到 目标 状态 的 goto 语 句 ， 且 在 
每 条 goto 语 句 前 读 入 新 的 字符 ， 弧 上 的 字符 标签 转化 为 判断 条 件 。 对 于 
标识 符 的 有 限 目 动机 ， 我 们 可 以 得 到 如 下 代码 : 


if (ch== 下 划 线 
Or 字母 
){ | 
ch=scan(file); 
goto 1; 
} 
goto end; 
if (ch== 下 划 线 
Or 字母 
Or 数字 
){ | 
ch=scan(file); 
goto 1; 
} 
goto end; 


然后 将 这 段 代码 转化 为 控制 流 图 ， 如 图 3-12 所 示 。 


下 划 线 | 字母 


下 划 线 | 字母 | 数字 结束 


图 3-12 ”DFA 与 控制 流 图 


我 们 发 现 ， 根 据 DFA 转 化 得 到 的 代码 控制 流 图 与 前 面 硬 编 码 的 程 
序 控制 结构 完全 一 致 ， 这 种 将 DFA 直 接 转 化 为 编码 的 方式 一 般 称 为 直 
接 编 码 方式 。 虽 然 使 用 这 种 方式 也 可 以 完成 词法 分 析 亏 的 构造 ， 但 是 
这 种 方式 仍 需要 考虑 目 动机 状态 的 转换 ， 并 且 包 含 大 量 的 goto 语 句 ， 代 
码 明显 不 如 硬 编码 方式 简洁 。 因 此 ， 使 用 硬 编码 方式 的 词法 分 析 是 较 
好 的 克 择 。 接 下 来 逐一 搬 述 词法 记号 的 硬 编码 实现 。 


(1) 标识 符 


在 前 面 的 章节 中 已 经 描述 了 标识 符 词法 记号 的 硬 编 码 实现 。 然 
而 ， 在 实际 的 词法 分 析 过 程 中 ， 硬 编码 的 程序 控制 结构 只 是 提供 了 识 
别 词法 记号 的 框架 。 对 于 标识 符 来 说 ， 在 词法 分 析 过 程 中 ， 还 需要 记 
录 标 识 符 的 名 称 ， 创 建 标 识 符 词法 记号 对 象 ， 这 需要 在 便 编 码 控 制 结 
构 中 插入 相关 代码 来 完成 。 识 别 标识 符 词法 记号 的 代码 如 下 : 


1 if(ch>='a'&&ch<='z'||ch>='A'&&ch<="'Z'||ch=="'_'){ 

2 string name="",; 

3 dof{ 

4 name .push_back(ch ) ， 

/ /记录 字符 

5 Scan( ); 

// 读 入 字符 

6 }while(ch>='a'&é&ch<="'z' ||ch>="'A'&&8ch<="'Z" 

7 | 1ch=="'_'||ch>='0'&&ch<="'9'); / /匹配 结束 
8 Tag tag=keywords.getTag(name); 


/ /查询 关键 字 


9 if(tag==ID) 
/ /正常 的 标志 符 


10 t=new Id(name); 
// 创 建 标识 符 


11 else 
/ /关键 字 


12 t=new Token(tag); 
/ /创建 关键 字 


13 } 


标识 符 词 法 分 析 过 程 中 ， 使 用 name 记 录 接 收 的 字符 。 这 里 仍 假 定 
当前 字符 已 经 提前 读 入 ， 存 储 在 ch 内 。 需 要 注意 的 是 ， 前 面 描述 的 标 
识 符 识别 的 程序 控制 结构 是 ift+while 形 式 ， 而 这 里 是 ift+do-while 形 式 。 


ua 


因为 无 论 while 语 句 条 件 是 否 成 立 ， 都 会 执行 第 4~5 行 语句 ， 因 此 这 里 可 
以 修改 为 do-while 人 循环 。 这 也 从 侧面 说 明了 便 编 码 实现 的 词法 分 析 右 的 
编码 灵活 性 。 


代码 的 第 1~7 行 完成 了 标识 符 词 法 记号 的 识别 ， 并 将 标识 符 的 名 字 
记录 在 变量 name 中 。 第 8 行 通过 查询 关键 字 表 来 确定 当前 识别 的 字符 


是 普通 的 标识 符 还 是 系统 保留 的 关键 字 。 


重 


(2) 关键 字 


我 们 一 直 把 关键 字 当 作 一 类 特殊 的 标识 符 对 待 ， 长 至 前 面 识别 标 
识 符 的 代码 中 都 包含 了 关键 字 词 法 记号 的 生成 。 在 词法 分 析 器 的 实现 
中 ， 使 用 了 艇 列表 保存 关键 字 信 息 ， 相 关 人 代码 如 下 : 


1 /* 
2 关键 字 列 表 初 始 化 


3 */ 

4 Keywords: :Keywords() 

5 I 

6 keywords["int"]=KW_INT; 

7 keywords["char"]=Kw_CHAR; 

8 keywords["void"]=KW_VOID ; 

9 keywords["extern"]=KW_EXTERN ; 
10 keywords["if"]=KwW_IF; 

11 keywords["else"]=Kw_ELSE; 

12 keywords["switch"]=KwW_SwITCH; 
13 keywords["case"]=KW_CASE; 

14 keywords["default"]=KW_DEFAULT; 
15 keywords["while"]=KWw_ WHILE; 

16 keywords["do"]=KW_DO; 

17 keywords["for"]=KW_FOR; 

18 keywords["break"]=KW_BREAK 

19 keywords["continue"]=KW_CONTINUE; 
20 keywords["return"]=KW_RETURN; 
21 

22 /* 


23 ”测试 是 否 是 关键 字 


25 Tag Keywords: :getTag 


(string name) 
26 


27 return keywords.find(name)!=keywords.end() 
28 ?keywords[name]:ID， 
29 } 


在 Keywords 类 的 构造 函数 中 ， 我 们 初始 化 了 关键 字 的 散 列 表 
keywords。 当 词法 分 析 器 需要 确定 一 个 字符 串 是 否 是 关键 字 时 ， 只 需 
要 调用 Keywords 类 的 getTag 方 法 即 可 。 第 27~28 行 是 一 个 条 件 表 达 式 ， 
它 在 关键 字 表 内 查询 name 是 否 存 在 ， 如 果 存 在 则 返回 散 列 表 记 录 的 关 
键 字 标 号 ， 否 则 返回 标识 符 标号 ID。 只 要 在 该 函数 的 调用 处 判断 函数 
getTag 返 回 的 词法 标签 是 否 是 ID， 便 能 确定 当前 识别 的 字符 串 是 标识 符 
还 是 关键 字 。 


(3) 常量 


四 


我 们 仍 按照 数字 种 量 、 字 符 常 量 、 字 符 串 常量 的 顺序 介绍 党 量 词 
法 记号 的 识别 。 与 标识 符 类 似 ， 仍 然 是 对 词法 记号 在 概念 上 进行 拆 
分 ， 以 确定 识别 词法 记号 的 程序 控制 结构 。 


数字 和 音量 文 持 四 种 进 制 : 十进制、 八进制 、 二 进 制 和 十 六 进 制 ， 
只 要 以 数字 0~9 开 始 的 字符 串 都 会 产生 数字 词法 记号 。 十 进 制 整 效 要 求 
以 1~9 开 始 ， 是 任意 多 个 0~9 数 字 的 组 合 。 这 与 标识 符 类 似 ， 是 一 个 
if+do-while 控 制 结构 。 八 进 制 整数 要 求 以 “0” 开 始 ， 二 进 制 整数 要 求 
以 “0b” 开 始 ， 十 六 进 制 整数 要 求 以 “0x” 开 始 。 它 们 拥有 公共 的 前 级 0， 
因此 还 需要 读 入 一 个 字符 来 确定 具体 的 数字 进 制 。 如 果 读 入 字符 ”pb 


”′， 则 确定 是 二 进 制 整数 ， 后 边 紧 跟 以 0~I 开 始 的 任意 0~1 组 合 的 字符 
， 也 是 一 个 itdo-while 控 制 结 构 。 如 采 读 入 字符 ”X”， 则 确定 是 
六 进 制 整数 ， 后 边 紧 跟 以 0~9、A~Z 或 az 开始 的 ， 任 意 0~9、A~Z 或 a~z 

组 合 的 字符 串 ， 也 是 ifrdo-while 控 制 结 构 。 如 果 读 入 的 是 0~7 中 的 字 
符 ， 则 确定 是 八进制 整数 ， 后 边 紧 跟 任意 多 个 0~7 数 字 的 组 合 ， 是 一 个 
do-while 探 制 结构 。 如 果 读 入 的 是 其 他 字符 ， 则 表示 仅 有 一 个 数字 0 被 
接受 。 实 现代 码 如 下 : 


1 if(ch>='0'&&ch<='9'){ 
2 int val=0; 
3 if(ch!='0'){ 
/ /十 进 制 


dof{ 
val=val*10+ch-'0'，; 


scan(); 
}while(ch>='0'&&ch<='9')， 


10 Scan( ) ， 
11 if(ch=='x'){ 


12 scan(); 

13 if(ch>='0'&&ch<="'9' ||ch>='A'&&ch<="F" 

14 | |ch>='a'&&ch<='f' ){ 

15 dof{ 

16 Val=VvValL*16+ch ; 

17 if(ch>='0'&&ch<='9' )val-='0') 

18 else if(ch>='A'&&ch<="'F' )val+=10-'A'; 
19 else if(ch>='a'&&ch<="'f' )val+=10-'a'; 
20 Scan( ); 

21 }while(ch>='0'&&ch<="'9' ||ch>='A'&&ch<="'F" 

22 ||ch>='a'&&ch<='f' ); 


} 
24 elsef 
25 LEXERROR(NUM_HEX_TYPE ) ， 


26 t=new Token(ERR ) 
27 } 


29 we if(ch=='b'){ 


30 Scan( ) 


31 if(ch>='0'&&ch<='1'){ 
dof{ 
33 val=val*2+ch-'0' 
34 Scan( ) ， 
35 }while(ch>='0'&&ch<="'1" ); 


37 elsef 
38 LEXERROR( NUM_BIN_TYPE); 


39 t=new Token(ERR); 
40 } 


43 dof{ 
44 val=val*8+ch-'0'，; 
Scan( ); 
46 }while(ch>='0'&&ch<=' 7 )， 
} 


} 
49 if(!t)t=new Num(val); / /最终 数字 


第 2 行使 用 变量 val 保 存 数字 的 值 ， 初 始 化 为 0。 


第 3~8 行 是 十 进 制 整数 的 识别 过 程 ， 第 9~48 行 是 其 他 进 制 数 的 识 另 


过 程 。 


第 11~28 行 是 十 六 进 制 整数 的 识别 过 程 ， 第 24~27 行 处 理 十 六 进 制 


整数 定义 时 ，“0x”" 之 后 无 有 效 字 符 的 词法 错误 。LEXERROR 安 用 于 输 


出 词 ¥ 去 销 误 信 言 局 ,， 后 面 会 对 该 宏 进行 介绍 ， 并 产生 词法 记号 err 。 


第 29~41 行 是 二 进 制 整数 的 识别 过 程 ， 第 37~40 行 处 理 二 进 制 整数 
定义 时 ,，“0b” 之 后 无 有 效 字 符 的 词法 错误 。LEXERROR 安 用 于 输出 词 
法 销 误 信息 ， 产生 词法 记号 err 9S 


} 
42 else if(ch>='0'&&ch<='7' ){ /A 人 


| 


第 42~47 行 是 八进制 整数 的 识别 过 程 ， 此 处 不 会 产生 词法 错误 。 这 
是 因 为 在 进行 非 十 进 制 整数 识别 时 ， 已 经 读 入 字符 ”0”， 无 论 新 读 入 


的 字符 是 否 是 0~7 数 子 ，0 本 映 束 十 一 个 合法 的 八进制 整数 。 


第 50 行 根据 数字 识别 过 程 中 计算 得 到 的 val 的 值 创建 数字 词法 记 


号 。 


对 于 字符 第 量 ， 要 求 它 是 由 两 个 单 引号 包 售 起 来 的 唯一 字符 或 一 
个 转 义 字符 。 词 法 分 析 郁 读 入 一 个 单 引 号 后 开始 对 字符 毅 量 进行 识 
别 。 如 果 读 入 字符 ”\” 则 继续 读 入 一 个 字符 ， 并 处 理 字 符 的 转 义 。 如 
果 读 入 另 一 个 单 引 号 ， 则 说 明 两 个 单 引 豆 之 间 没 有 有 效 字 符 ， 视 为 词 
法 错误 。 如 果 读 入 了 换行 符 或 文件 结束 符 ， 将 导致 词法 错误 。 这 个 过 
程 是 一 个 典型 的 if 经 制 结构 。 如 采 补 转 义 的 字符 是 换行 符 或 文件 结 
符 ， 则 字符 词法 记号 识别 失败 。 人 否则 进行 正常 的 转 义 字符 处 理 。 这 也 
征 一 个 if 控制 结构 ， 实 现代 码 如 下 : 


1 if(ch=="'\''){ 

2 char c; 

3 scan( ); 

4 if(ch=="'\\"){ // 转 义 
5 scan(); 

6 if(ch=="'n')c='\n',; 

7 else if(ch=="'\\')c="'\\',; 

8 else if(ch=='t')c="'\t'; 

9 else if(ch=="'0')c="'\0'; 

10 else if(ch=="'\'')c="'\"",; 

11 else if(ch==-1||ch=='\n'){ / /文件 结束 
换行 

12 LEXERROR(CHAR_NO_R_QUTION ) ; 

13 t=new Token(ERR ) ， 

14 


} 
15 else c=ch; // 没 有 转 义 


16 } 

17 else if(ch=='\n'||ch==-1){ / /换行 
文件 结束 

18 LEXERROR(CHAR_NO_R_QUTION ) ， 

19 t=new Token(ERR ) ， 

20 

21 else if(ch=='\"''){ / /没有 数据 

22 LEXERROR( CHAR_NO_DATA); 

23 t=new Token(ERR); 

24 scan(); // 读 掉 引号 

25 

26 else c=ch; / /正常 字符 

27 if(!t){ 

28 if(scan('\''))t{ / /匹配 右 侧 引号 

/ 读 掉 引号 

29 t=new Char(c); 

30 } 

31 elsef 

32 LEXERROR(CHAR_NO_R_QUTION ) ， 

33 t=new Token(ERR ) ， 

34 } 

35 } 

36 } 


第 2 行使 用 变量 c 记 录 识 别 的 字符 。 


第 4~16 行 识别 转 义 字符 ， 第 11~14 行 处 理 不 能 转 义 的 字符 ， 报 告 词 


Sy 十 
法 错误 。 


第 17~20 行 处 理 字符 词法 记号 内 出 现 换 行 符 或 文件 结束 符 时 的 词法 


着 误 。 


第 21~25 行 处 理 两 个 单 引号 之 间 无 有 效 字 符 的 情况 。 注 意 这 里 识别 
右 单 引号 后 需要 主动 读 入 下 一 个 字符 ， 不 再 将 这 个 右 单 引号 作为 下 一 


个 词法 记号 的 开始 。 


第 27~35 行 识别 字符 词法 记号 的 右 单 引号 ， 第 29 行 产生 字符 词法 记 
号 ， 第 31~34 行 处 理 右 单 引 号 丢失 的 词法 错误 。 


字符 串 利 量 与 字符 利 量 的 识别 相似 ， 要 求 它 是 由 两 个 双 引 号 包含 
起 来 的 字符 和 转 义 字符 的 任意 组 合 ， 包 括 空 串 。 词 法 分 析 峰 读 入 一 个 
双 引 号 后 开始 ， 并 期 望 读 入 另 一 个 双 引 号 完成 字符 串 常 量 的 识别 ， 这 
征 一 个 while 榨 制 结构 。 如 果 读 入 字符 ”\” 则 继续 读 入 一 个 字符 ， 处 理 
字符 的 转 义 。 如 来 读 入 了 换行 符 或 文件 结束 符 ， 将 导致 词法 错误 。 这 
个 过 程 是 一 个 if 控制 结构 。 如 采 被 较 义 的 字符 是 文件 结束 符 ， 则 字符 串 
词法 记号 识别 失败 。 否 则 进行 正常 的 转 义 字符 处 理 。 这 也 是 一 个 if 控 制 
结构 ， 实 现代 码 如 下 : 


1 if(ch=="'"'){ 

2 string str="",; 

3 while(!scan('"'))t{ 

4 if(ch=='\\")t{ // 转 义 

5 Scan( ); 

6 if(ch=="'n"')str. push— back('\n'); 

7 else if(ch=="\\. )str.push_ back(、 NA ) 

8 else if(ch=='t')str.push_back('\t'); 

9 else if(ch=='"')str.push_back('"'); 

10 else if(ch=="'0')str.push_back('\0'); 

11 else if(ch=="'\n'); / /字符 串 换行 
12 else if(ch==-1)f{ 

13 LEXERROR(STR_NO_R_QUTION ) ， 

14 t=new Token(ERR ) 

15 break 

16 } 

17 else str.push_back(ch); 

18 } 

19 else if(ch=='\n'||ch==-1)f{ / /文件 结束 
20 LEXERROR(STR_NO_R_QUTION ) ， 


21 t=new Token (ERR); 


22 break 


} 
24 else 
25 str.push_back(ch); 


3 
27 if(!t)t=new Str(str); / /最 终 字符 串 


第 2 行使 用 变量 str 记 如 识 别 的 字符 串 。 


第 4~18 行 识别 转 义 字符 ， 第 12~16 行 处 理 不 能 转 义 的 字符 ， 报 告 词 


站 北 、 呈 
~ 日 天 5 


第 19~23 行 处 理 字符 串 词法 记号 内 出 现 换行 符 或 文件 结束 符 时 的 词 


村 导电 
、 日 未 5 


第 27 行 产生 字符 串 词 法 记号 。 


(4) 界 符 


我 们 按照 界 符 词 法 记号 的 长 度 将 界 符 分 为 两 类 :单字 市 界 符 和 双 
字 让 界 符 。 单 字 广 界 符 的 识别 非常 集 单 ， 直 接 根 据 读 入 的 子 符 确定 寞 
符 的 词法 标签 ， 创 建 词法 记号 对 象 ， 然 后 读 入 下 一 个 字符 作为 后 继 词 
法 记号 识别 的 开始 。 例 如 单子 广 界 符 ”%”， 当 读 入 字符 ”%” 后 直接 
创建 词法 记号 ”9% ”。 使 用 伪 代 码 描述 如 下 : 
if(ch=='%! 


t=new Token(MOD ) ， 
Scan( ) ; 


而 对 于 双 字 节 别 符 的 识别 ， 需 要 读 入 两 个 字符 以 确定 界 符 的 词法 
标签 。 例 如 双 字 世界 符 ”>=”， 需 要 在 读 入 字符 ”> ”后 ， 再 次 读 入 一 
个 字符 ， 并 判断 是 否 是 字符 = 来 确定 识别 的 词法 记号 是 ”> ”还 是 - 
>=”“。 这 里 需要 注意 的 是 ， 如 有 果 读 入 字符 >" 后， 再 次 读 入 的 字符 不 是 
”=”， 则 产生 ”> ”词法 记号 ， 后 续 的 词法 记号 从 当前 读 入 的 字符 开 
始 继续 识别 。 如 有 宁 再 次 读 入 的 字符 旺 ”=”， 则 产生 ”>= ”词法 记号 ， 
后 续 的 词法 记号 应 该 从 下 一 个 字符 开始 继续 识别 ， 即 词法 分 析 右 的 “ 贫 
心 ” 规 则 ， 通 过 调用 扫 摘 郁 获取 下 一 个 字符 。 使 用 仿 代 码 措 述 ”>= ” 词 
法 记号 的 识别 过 程 如 下 : 


字 
字 


if(ch=="'>'){ // 进 入 
> 或 
>= ”的 识别 
Tag tag=GT， / /暂时 确定 为 
i 
scan(); // 读 入 下 个 字符 
if(ch=='='){ / /判定 是 否 是 ” 
> 二 
tag=GE; / /重新 确定 为 
= 
scan(); // 读 入 下 一 个 字符 
1 Token(tag ) ， / /创建 词法 记号 


使 用 这 样 的 方式 识别 双 字 万 界 符 比 较 楷 琐 ， 为 简化 识别 双 字 和 界 
符 的 过 程 重 新 设计 封装 scan 的 接口 ， 代 码 如 下 : 
Ll: A 
2 ”封装 的 扫描 方法 
3 */ 
4 bool Lexer::scan 


(char need=0) 
5 


6 ch=scanner.scan(); / /扫描 出 字符 


7 if(need){ 
8 if(ch!=need) / /与 预期 不 吻合 


return false; 


10 ch=scanner .Scan( ) ， / /与 预期 吻合 ， 扫 描 
下 全 1 

11 return true; 

12 } 

13 return true; 

14 } 


重新 封装 的 scan 附 加 了 参数 need， 并 默认 为 0， 这 样 直接 调用 scan 
() 时 与 原本 的 scan 功 能 相同 。 如 果 调 用 scan 时 指定 了 参数 ， 则 判断 扫 
摘出 的 字符 是 否 与 need 相 等 。 如 有 果 不 等 则 返回 false， 表 示 扫 描 出 的 字符 
与 指定 参数 need 不 匹配 ， 否 则 继续 扫描 ， 读 入 新 的 字符 ， 返 回 true。 这 
样 ， 无 论 读 入 的 字符 是 否 与 参数 匹配 ， 当 前 字符 位 置 都 保存 了 下 一 个 
词法 记号 开始 匹配 的 字符 。 使 用 重新 封装 的 scan 函 数 处理 上 述 ”′>= 
词法 记号 的 识别 可 以 用 条 件 表达 式 完 成 。 


if(ch=='> '){ // 进 入 
> 或, 


>= ”的 识别 


[uy 


co ~ILIODOI 上 wm 


t=new Token(scan('="')?GE:GT); 


// 


9 动 处 理 词法 记号 的 种 类 


将 所 有 的 界 符 的 识别 过 程 放 在 一 个 switch-case 语 名 内， 得 到 的 实现 
代码 如 下 : 


Token(scan('+')?INC:ADD);break; 
Token(scan('-')?DEC:SUB);break; 


Token(MUL);scan();break; 


Token(DIV);scan();break; 
Token(MOD);scan();break; 
Token(scan('=")?GE:GT);break; 
Token(scan('="')?LE:LT);break; 
Token(scan('="')?EQU:ASSIGN);break; 


Token(scan('&' )?AND:LEA);break; 


Token(scan('|')?0R:ERR); 


if(t->tag==ERR) 


switch(ch){// 界 符 

Case '+': 
t=new 

Case '-': 
t=new 

CaSe '*': 
t=new 

case '/': 
t=new 

Case '%': 
t=new 

Case '>': 
t=new 

Case '<': 
t=new 

Case '="': 
t=new 

Case '&': 
t=new 

case '|': 
t=new 
break; 

case '!': 
t=new 

Case ',': 
t=new 

Case "i:': 
t=new 

Case ') 
t=new 

case '(': 
t=new 

case ')': 
t=new 

case '[': 
t=new 

case ']': 
t=new 

case '{': 
t=new 


LEXERROR( OR_NO_PAIR); 


Token(scan('=")?NEQU:NOT);break; 
Token(COMMA); scan();break,; 
Token(COLON);scan();break; 
Token(SEMICON);scan();break; 
Token(LPAREN);scan();break; 
Token (RPAREN); scan();break; 
Token(LBRACK);scan();break; 
Token (RBRACK); scan();break; 


Token(LBRACE);scan();break; 


// 1 | 没有 -对 


43 case '}': 
44 t=new Token(RBRACE);scan();break; 


45 case -1: 

46 t=new Token(END);scan();break; 

47 default: 

48 t=new Token(ERR); / /错误 的 
词法 记号 

49 LEXERROR( TOKEN_ NO_EXIST); 

50 Scan( ) ， 

51 } 


可 见 使 用 封 竣 后 的 scan 实 现 的 界 符 解 机 代码 更 加 商洛 ， 不 过 仍 有 几 
点 需要 注意 。 


第 8 行 处 理 ”/” 字 符 时 ， 还 未 考虑 注释 的 解 林 ， 稍 后 会 详细 介绍 。 


第 20 行 处 理 ”| ”字符 时 ， 者 不 能 匹配 词法 记号 ”| ”， 则 产生 词法 
着 误 ， 因 为 我 们 没有 定义 词法 记号 |” 。 


第 46 行 处 理 不 符合 文法 定义 的 字符 的 情况 ， 统 一 视 作 错误 词法 记 


号 


(5) 无 效 词法 记号 


每 次 进行 词法 记号 识别 之 前 ， 词 法 分 析 絮 会 尽 可 能 忽略 空 日 字 


符 ， 通 过 一 个 while 循 环 结构 很 容易 做 到 这 点 。 


1 while(ch==' '||ch=='\n'||ch=='\t') / /忽略 空 白 符 
2 scan(); 
3 // 


处 理 其 他 词法 记号 的 识别 


对 于 注释 ， 可 以 从 概念 上 拆 分 ， 描 述 它 的 识别 过 程 。 注 释 分 为 单 

行 注释 和 多 行 注释 ， 单 行 注释 以 ”//′ 引 导 ， 多 行 注释 以 ”x“ 引导 ， 

它们 包含 公共 的 前 级”/′ ， 把 它们 与 除法 运算 符 词法 记号 ”/′ 放 在 一 

起 处 理 。 因 此 词法 分 析 器 读 入 字符 ′/′ 后 需要 再 读 入 一 个 字符 ， 来 确 
否 是 注释 。 


如 果 新 读 入 的 字符 是 ”/”， 则 确定 为 单行 注释 。 此 后 词法 分 析 器 
可 以 接收 任意 多 个 任意 字符 ， 直 到 遇 到 换行 符 或 文件 结束 为 止 。 使 用 
while 循 环 结构 可 以 处 理 单 行 注释 的 识别 。 


如 有 果 痢 读 入 的 字符 是 ”-*”， 则 确定 为 多 行 注释 。 词 法 分 析 器 可 以 
接收 任意 多 个 非 文件 结束 符 字 符 ， 直 到 遇 到 字符 ”* ”时 才 进 行 后 继 的 
处 理 ， 这 个 过 程 使 用 while 循 环 处理 。 在 多 行 注释 处 理 过 程 中 ， 如 有 果 过 
到 字符 ”*”， 还 需要 尝试 跳 过 连续 的 ”″* ”字符 ， 这 是 一 个 内 航 的 
while 循 环 。 如果 读 入 字符 ”* ”后 再 次 读 取 的 字符 是 ”/” 则 完成 多 行 
注释 的 识别 ， 人 否则 仍 看 作 多 行 注释 内 部 的 内 容 ， 继 续 前 面 的 处 理 ， 这 

一 个 简单 的 站 控制 语句 。 实 现代 码 如 下 : 


1 case '/ 

2 Scan( ); 

3 if(ch=='/"){ / /单行 注释 
4 while(!(ch=='\n' || ch== -1)) / /不 是 换行 
符 、 文 件 结束 符 


Scan( ) ， 
t=new Token(ERR ) ， 


} 
else if(ch=="'*')f{ // 多 行 注 


释 


9 while(!scan(-1)){ // 一 直 扫 
描 ， 可 能 到 文件 结束 


10 if(ch=='x*'){ / /出 现 
* 

11 while(scan('*')); // 跳 过 注 
释 内 连续 的 

* 

12 if(ch=="'/"){ / /多 行 注 
释 结 

13 t=new Token(ERR); 

14 break; 

15 

16 } 

7 } 

18 if(lt&&ch==-1){ / /未 正常 结束 注释 

19 LEXERROR( COMMENT_ NO_END); 

20 t=new Token (ERR); 

21 } 

22 } 

23 else 

24 t=new Token(DIV); 

25 break; 


第 3~7 行 处 理 单行 注释 的 识别 ， 只 要 不 是 换行 符 或 文件 结束 符 ， 束 
一 直 扫 撕 。 


第 8~22 行 处 理 多 行 注 释 的 识别 ， 第 10~16 行 处 理 多 行 注 释 内 出 现 字 
符 ” * ”的 情况 ， 第 12~15 行 处 理 多 行 注释 的 结尾 ， 第 18~21 处 理 多 行 注 
释 在 遇 到 ”′:* ”时 文件 结束 的 情况 。 


第 24 行 处 理 除法 运算 符 的 识别 。 


前 面 提 到 ， 对 于 无 效 的 词法 记号 ， 词 法 分 析 絮 有 两 种 处 理 方式 : 
不 做 任何 处 理 ， 或 返回 错误 词法 记号 err。 如 末 采 取 不 做 任何 处 理 的 方 


式 ， 就 需要 在 词法 分 析 器 内 将 错误 词法 记号 忽略 掉 。 具 体 的 实现 代码 
us 


1 for(;ch!=-1;)t{ / /开始 识别 词法 记号 

2 Token*t=NULL; / /词法 记号 指针 

3 while(ch==' '||ch=='\n'||ch=="'\t') / /忽略 空 白 符 

4 Scan( ); 

5 / /处理 其 他 词法 记号 的 识别 
6 if(token)delete token; / /删除 旧 的 词法 记号 

7 token=t， / /记录 新 的 词法 记号 

8 if(token&&token->tag!=ERR) / /有效 词法 记号 

9 return token,; / /返回 词法 记号 

10 else 

11 continue; / /继续 识别 新 的 词法 记号 
12 } 


我 们 将 词法 记号 的 识别 过 程 放 在 for 循 环 内 ， 循 环 终止 条 件 是 遇 到 
文件 结束 符 。 


第 2 行使 用 t 记 录 创 建 的 词法 记号 对 象 指针 。 


第 3~4 行 用 于 跳 过 空 日 字符 。 


第 6~11 行 对 产生 的 词法 记号 进行 处 理 。 第 6~7 行 将 当前 新 建 的 词法 
记号 对 象 指针 保存 在 token 中 。 第 8 行 如 采 判 断 出 当前 创建 的 词法 记号 是 


背 误 词法 记号 ， 则 继续 识别 新 的 词法 记号 ， 忽 略 错误 词法 记号 。 人 否则 
返回 有 效 的 词法 记号 ,传递 给 语法 分 析 器 。 这 样 ， 对 于 语法 分 析 右 来 
说 ， 和 是 不 会 接收 到 错误 的 词法 记号 的 。 


3.1.5 ”错误 处 理 


在 词法 分 析 的 过 程 中 会 出 现 词 法 错误 的 情况 ， 需 要 进行 错误 处 
理 。 词 法 分 析 的 错误 处 理 只 需要 报告 相应 的 词法 错误 信息 ， 并 给 出 错 
误 出 现 的 行 号 和 列 号 。 在 我 们 实现 的 词法 分 析 器 中 处 理 的 词法 错误 如 
表 3-4 所 示 。 


表 3-4 词法 错误 表 


词法 错误 类 型 词法 错误 类 型 
STR NO R QUTION 字符 串 丢 失 右 引号 
NUM BIN TYPE 二 进 制 数 没有 实体 数据 
NUM HEX TYPE 十 六 进 制 数 没有 实体 数据 
CHAR NO R QUTION 字符 丢失 右 单 引 号 
CHAR NO DATA 不 支持 空 字符 
OR_NO_PRAIR 错误 的 “或 ”运算 符 
COMMENT NO_END 多 行 注释 没有 正常 结束 
TOKEN NO EXIST 词法 记号 不 存在 


在 扫 搬 故 中 计算 字符 的 行 和 列 的 位 置 ， 且 你 存 处 理 的 源 文件 名 。 
根据 表 3-4 提 供 的 词法 错误 信息 ， 很 容易 完成 具体 位 置 的 词法 错误 信息 
输出 。 相 关 实 现代 码 如 下 : 


dA 

2 ”词法 错误 类 型 

3° */ 

4 enum LexError 

{ 

5 STR_NO_R_QUTION, / /字符 串 没有 右 引 号 


6 NUM_BIN_TYPE， / /二进制 数 没有 实体 数 


7 NUM_HEX_TYPE, / /十 六 进 制 数 没 有 实体 
数据 

8 CHAR_NO_R_QUTION, / /字符 没有 右 引 号 

9 CHAR_NO_DATA, / /字符 没有 数据 

10 OR_NO_PAIR, //| | 只 有 一 个 

| 

11 COMMENT_NO_END, // 多 行 注释 没有 正常 结 
12 TOKEN_NO_EXIST / /不 存在 的 词法 记号 
13 }; 

14 /* 


15 打印 词法 错误 


16 */ 
17 void Error::lexError 


(int code){ 


18 static const char *lexErrorTable[]={ / /词法 错误 信息 串 
19 "字符 囊 于 失 右 引号 

20 " 二进制 数 没 有 实体 数据 
i 

21 "十 六 进 制 数 没有 实体 数据 
22 "字符 丢失 右 单 引号 

23 "不 支持 空 字符 

24 "错误 的 

"或 

"运算 符 

25 "多 行 注释 没有 正常 结束 
26 "词法 记号 不 存在 

5 

27 下 7 


28 errorNum++， 


29 printf("%s<%d 行 


7 %d 列 


> 词法 错误 

: %s.\n", 

30 scanner->getFile(), 
31 scanner->getLine(), 
32 scanner->getCol(), 
33 lexErrorTable[codel] 
34 ); 

35 


36 #define LEXERROR 


(code) Error::lexError(code) 


第 1~13 行 使 用 枚 举 类 型 LexError 记 录 所 有 词法 错误 的 类 型 。 


第 14~35 行 定义 输出 词法 错误 信息 的 函数 lexError， 其 中 数组 
lexErrorTable 保 存 与 词法 错误 类 型 对 应 的 信息 。 第 28 行 使 用 变量 
errorNum 记 孙 编 译 釉 产生 的 错误 数 。 第 29~34 行 调用 扫 摘 硕 的 方法 获取 
词法 错误 产生 位 置 所 在 的 文件 名 、 行 号 和 列 号 。 


第 36 行 使 用 宏 LEXERROR 封 装 lexError 范 数 的 调用 。 


至 此 ， 我 们 详细 介绍 了 词法 分 析 亏 的 所 有 实现 细节 ， 接 下 来 进行 
语法 分 析 时 ， 只 需 调 用 词法 分 析 器 的 tokenize 函 数 ， 便 可 以 获得 源 文 件 
内 定义 的 所 有 词法 记号 。 


3 合计 DT 
语法 分 析 器 获取 词法 分 析 器 提供 的 线性 词法 记号 序列 ， 根 据 高 级 
语言 文法 的 结构 ， 识 别 不 同 的 语法 模块 。 图 3-13 描 述 了 语法 分 析 器 的 


结构 。 


滞 言 文法 


疗法 记号 语法 模 
辐 法 记号 [到 | 语法 模块 


图 3-13 ”语法 分 析 器 结构 


经 过 语法 分 析 器 的 处 理 后 ， 高 级 语言 源 代码 在 编译 器 内 部 表现 为 
一 棵 完整 的 抽象 语法 树 ， 抽 象 语 法 树 的 子 树 (包括 抽象 语法 树 本 喘 ) 
也 称 为 语法 模块 。 高 级 语言 的 文法 直接 影响 语法 分 析 右 的 结构 ， 在 介 
绍 语法 分 析 融 的 构造 之 前 ， 需 要 明确 高 级 语言 的 文法 定义 。 


3 ToT 


Chomsky 于 1956 年 建立 了 形式 语言 的 描述 ， 他 把 文法 分 为 四 种 类 
型 ， 即 0 型 、1 型 、2 型 、3 型 ， 这 四 种 文法 描述 的 语言 范围 是 依次 缩减 
的 。 其 中 3 型 文法 “〈 即 正则 文法 ) 描述 了 正则 语言 ， 前 面 讨 论 的 词法 记 
号 属于 3 型 文法 ， 使 用 有 限 目 动机 可 以 完成 正则 语言 的 识别 。 而 2 型 文 
法 《“ 即 上 下 文 无 关 文 法 ) 描述 了 程序 设计 语言 ， 需 要 使 用 文法 分 析 算 
法 完成 程序 设计 语言 的 识别 。 


在 编译 原理 的 教材 中 ， 拉 述 了 大 量 的 文法 分 析 算 法 。 包 括 目 顶 癌 
下 的 LL (1) 分 析 、 自 底 向 上 的 LR 分 析 等 。LL (1) 分 析 对 文法 的 要 求 
比 LR 分 析 关 格 ， 它 不 允许 文法 中 的 产生 式 出 现 左 公 因子 和 左 递 归 ， 央 
此 构造 LL (1) 文法 时 需要 避免 出 现 左 公 因子 和 左 递归 。 虽 然 LR 分 析 
对 文法 的 要 求 比 较 宽 松 ， 但 是 LR 分 析 堪 手工 构造 较为 复杂 。 鉴 于 LL 
(1) 文法 足以 描述 本 文 所 实现 的 语言 ， 本 书 采用 LL (1) 分 析 器 分 析 
目 定义 语言 的 文法 。 主 流 的 编译 絮 GCC 也 是 使 用 LL 分 析 器 完成 C 语 言 
的 语法 分 析 ， 不 过 GCC 使 用 的 是 LL (2) 分 析 算 法 。 


我 们 知道 ， 词 法 分 析 器 将 高 级 语言 源 代 码 转化 为 线性 的 词法 记号 
序列 ， 从 语法 分 析 器 的 角度 来 看 ， 高 级 语言 程序 是 由 词法 记号 序列 组 
合 而 成 。 在 语法 分 析 过 程 中 ， 词 法 记号 被 称 为 终结 符 。 将 一 组 词法 记 


号 子 序列 表示 的 抽象 含义 独立 出 来 ， 使 用 符号 表示 ， 这 些 抽象 符号 被 


称 为 非 终 结 符 。 


如 琳 使 用 <type> 表 示 目 定义 语言 的 数据 类 型 ， 根 据 本 书 对 目 定 义 语 
言 特性 的 定义 ， 数 据 类 型 包含 int、char 和 void 三 种 基本 类 型 ， 因 此 使 用 
广 生 也 表示 入 | 


<type>->Kw_INT | KW_CHAR | KWw_VOID 


其 中 KW_INT、KW_CHAR、KW_VOID 三 个 词法 记号 分 别 对 应 
int、char、void 关 键 字 词 法 记号 ， 称 为 终结 符 。<type> 作 为 这 三 个 词法 
记号 的 抽象 含义 ， 被 称 为 非 终结 符 。 产 生 式 的 含义 为 非 终结 符 <type> 可 
以 推导 出 终结 符 KW_INT、KW_CHAR 或 KW_VOID 。 构 造 文法 的 过 程 
其 实 就 是 对 高 级 语言 结构 逐 层 解析 的 过 程 ， 接 下 来 先 根 据 自 定义 语言 
的 特性 ， 详 细 解 析 文 法 的 构造 过 程 。 


1. 高 级 语言 程序 


本 书 设计 的 目 定 义 语 言 征 C 语 言 的 子 集 ， 因 此 可 以 参考 C 语 言 的 语 
法 结构 。C 语 言 程序 一 般 由 变量 声明 、 变 量 定义 、 函 数 声明 、 函 数 定义 
组 合 而 成 ， 如 果 使 用 非 终结 符 <program> 表 示 高 级 语言 程序 ， 使 用 
<segment> 表 示 组 成 程序 的 片段 。 那 么 使 用 产生 式 表示 高 级 语言 程序 与 
程序 片段 的 关系 如 下 : 


<program>-><segment><program> 


重 过 递归 形式 的 定义 ，<program> 可 以 推导 出 任意 多 个 
<segment>， 正 好 表示 高 级 语言 程序 由 任意 多 个 程序 片段 组 成 的 含义 。 
但 是 高 级 语言 程序 包含 的 程序 片段 肯定 是 有 限 多 个 ， 上 述 推 导 的 结果 
征 无 限 多 个 程序 片段 ， 因 此 我 们 需要 给 推导 过 程 一 个 终止 条 件 。 


<program>->s 


我 们 使 用 特殊 终结 符 e 表 示 衬 的 终结 符 ， 只 要 <program> 的 推导 过 
程 中 使 用 该 条 产生 式 ， 便 可 以 终止 递归 推导 的 过 程 。 同 一 个 非 终结 符 
的 产生 式 可 以 合并 ， 使 用 符号 ”| ”连接 产生 式 的 右 侧 部 分 。 


<program>-><segment><program> | : 


消除 左 递归 


细心 的 读者 会 发 现 ， 既 然 可 以 使 用 递归 形式 的 产生 式 表示 "任意 多 
个 ”的 舍 义 ， 那 么 上 述 产 生 式 也 可 以 表示 为 如 下 形式 : 


<program>-><program><segment> | =* 


这 样 的 产生 式 称 为 左 如 归 形式 ， 前 面 给 出 的 是 右 递 归 形 式 ， 它 们 
表示 的 含义 完全 等 价 。 但 是 LL (1) 文法 不 允许 产生 式 出 现 左 递归 ， 
此 我 们 应 该 尽 可 能 消除 左 递 归 ， 左 圳 归 消 除 规则 为 : 


对 于 包含 左 递 归 的 产生 式 S->Salb (其 中 大 写字 和 母 表示 非 终结 符 ， 
小 写字 母 表示 终结 符 ) ， 引 入 新 的 非 终结 符 $S'， 将 原 产 生 式 改 写 为: 


S->bS' 
S'->aS' | e 


因此 对 于 <program> 的 左 递 归 定 义 <program>-><program> 
<segment>|e， 改 写 后 的 形式 为 : 


<program>->s 


<program '> 
<program'>-><segment><program'> | s 


产生 式 <program>->g<program'> 等 价 于 <program>-><program'>， 这 
条 产生 式 是 元 余 鸭 ， 可 以 消除 。 使 用 终结 人 符 <program> 代 替 


<program>， 即 得 到 最 初 的 产生 式 <program>-><segment><program>|s。 


将 高 级 语言 程序 <program> 拆 分 为 程序 片段 <segment> 后 ， 对 
<segment> 进 行 拆 分 。 程 序 片段 包含 变量 声明 、 变 量 定义 、 函 数 声 明和 


阔 数 定义 ， 代 码 示 例如 下 : 


2 
extern int name; / /变量 


name 声 明 
extern int name(); // 画 数 
name 声 明 
1 三 央 
int name; / /变量 
name 定 义 
东野 
int *name; // 指 针 变量 
name 定 义 
i 
int name(){} / /函数 
name 定 义 
i 
int name(); // 画 数 
name 声 明 


使 用 extern 天 键 字 引导 的 代码 肯定 是 声明 ， 紧 跟 extern 之 后 
的 是 数据 类 型 ， 否 则 引导 的 代码 可 能 是 定义 ， 也 可 能 是 函数 声明 。 我 
们 使 用 如 下 产生 式 表 示 <segment>。 


<segment>->KW_EXTERN <segment'> | <segment'> 
<segment'>-><type><def> 
<type>->KwW_INT | KW_CHAR | KW_VOID 


根据 是 否 包含 extern 将 <segment> 分 为 两 类 ， 并 使 用 <segment> 表 示 
公共 的 部 分 。 公 共 的 部 分 一 般 由 类 型 非 终结 符 开 始 ， 后 面 可 能 是 变量 


名 、 数 名 或 指针 变量 ， 我 们 使 用 <def> 作 为 它们 的 统称 。 


由 于 <segment> 只 有 一 种 推导 方式 ， 因 此 可 以 将 之 合并 到 
<segment> 的 产生 式 内 。 


<segment>->KwW_EXTERN <type><def> | <type><def> 


<type>->Kw_INT | KW_CHAR | Kw_VoID 


提取 左 公 因子 


或 许 读者 好 奇 为 什么 大 费 周章 地 将 <segment> 做 如 此 的 拆 分 ， 而 不 
年 直接 使 用 产生 式 表 示 它 的 结构 ， 比 如 。 


<segment>->KW_EXTERN KW_INT <def> 
| KW_EXTERN KW_CHAR <def> 
| KW_EXTERN KW_VOID <def> 


我 们 发 现 ， 如 此 定义 的 <segment> 的 产生 式 右 侧 出 现 了 相同 的 词法 
记号 KW_EXTREN， 称 为 左 公 因子 。LL (1) 文法 通过 超前 查看 一 个 词 
法 记号 来 选择 具体 使 用 哪个 产生 式 作 为 下 一 步 的 推导 ， 左 公 因子 的 出 
现 导致 无 法 做 出 唯一 的 选择 ， 因 此 需要 提取 左 公 因子 。 


对 于 包含 左 公 因子 的 产生 式 “S->aAlaB”，3 引 入 新 的 非 终结 符 S'， 将 
原 产 生 却 改写 为 : 


S->aS ' 
S'->A | B 


此 时 A 和 B 也 不 能 出 现 左 公 因 了 于 ， 否 则 继续 按照 上 述 过 程 改 写 。 将 
前 面 <segment> 产 生 式 改写 后 ， 得 到 : 


<segment>->KW_EXTERN <Segment '> 
<Segment '>->KW_INT <def> | KW_CHAR <def> | KwW_VOID <def> 


非 终 结 符 <segment'> 的 每 个 产生 式 右 侧 的 首部 可 以 合并 为 非 终结 符 
<type>， 因 此 得 到 : 


<segment'>-><type><def> 
<type>->KW_INT | KW_CHAR | KW_VOID 


这 样 就 回 到 前 面 对 <segment> 定 义 的 过 程 。 


这 里 有 一 个 细节 需要 注意 ， 根 据 <segment> 的 产生 式 定 义 ， 发 现 如 
下 特殊 代码 是 可 以 被 <segment> 识 别 的 。 


extern int name(){} 


这 种 由 extern 关 键 字 引导 的 函数 name 的 定义 是 符合 我 们 定义 的 文法 
规则 的 ， 但 这 不 是 合法 的 C 语 言 代码 ， 按 照 我 们 对 文法 的 定义 是 不 能 发 
现 这 个 问题 的 。 虽 然 可 以 通过 不 同 的 <def> 形 式 来 完成 这 种 区 分 ， 但 是 
这 样 做 让 文法 显得 更 加 复杂 。 对 于 这 种 情况 ， 可 以 将 这 种 合法 性 检查 
推迟 到 语义 分 析 时 进行 。 语 义 分 析 时 ， 针 对 带 有 extern 关 键 字 的 函数 定 
义 代 码 ， 会 报告 语义 错误 。 这 也 说 明了 一 点 ， 在 语法 分 析 过 程 中 难以 
或 者 无 法 处 理 的 问题 ， 可 以 由 语义 分 析 来 辅助 解决 。 


完成 非 终结 符 <segment> 的 拆 分 后 ， 接 下 来 是 继续 拆 分 非 终结 符 


<def> 的 结构 。 


2. 声 明 与 定义 


非 终结 符 <def> 表 示 了 变量 函数 的 定义 结构 和 不 帝 extern 天 键 字 的 
函数 声明 ， 以 下 是 满足 <def> 定 义 的 示例 代码 。 


int name; / /未 初始 化 变量 
name 定 义 

int name=1; / /常量 初始 化 变量 
name 定 义 

int name=a+b; / /表达 式 初始 化 变量 
name 定 义 

int name,name2 / /变量 定义 列表 
int *ptr,arr[10]; / /指针 
ptr 和 数组 

arr 定 义 

void fun(); // 画 数 

fun 声 明 

void fun(){} // 画 数 

fun 定 义 

int fun(int x[10],char* y); // 有 参数 的 画 数 


un 声明 


满足 <def> 的 代码 非常 多 ， 如 何 进行 合理 的 划分 很 关键 。 自 先 考 虑 
变量 的 定义 ， 按 照 引 导 词法 记 和 号 可 以 将 变量 分 为 两 类 : 以 标识 符 ID 开 
始 的 变量 或 数组 和 以 词法 记号 MUL 开 始 的 指针 。 其 中 变量 和 数组 的 定 
义 包含 左 公 因子 ID， 因 此 需要 提取 左 公 因子 。 变 量 和 指针 是 可 以 使 用 
表达 式 初 始 化 的 (独立 的 常量 、 变 量 也 是 表达 式 ) ， 为 了 简化 起 见 ， 
不 允许 对 数组 初始 化 。 使 用 <defdata> 表 示 所 有 变量 的 定义 ， 则 产生 式 
表示 为 : 


<defdata>->ID <varrdef> | MUL ID <init> 


<varrdef>->LBRACK NUM RBRACK | <init> 


<init>->ASSIGN <expr> | * 


非 终 结 符 <varrdef> 表 示 变 量 和 数组 的 定义 ，<init> 表 示 和 初始化 部 


分 ，<expr> 表 示 表 达 式 ， 其 定义 在 后 面具 体 搬 述 。 


由 于 我 们 允许 使 用 变量 定义 列表 定义 多 个 变量 ， 除 了 第 一 个 定义 
的 变量 外 ， 后 继 的 变量 定义 都 症 以 '，' 进 行 分 隔 ， 并 且 可 能 出 现任 意 多 
次 。 使 用 非 终 结 符 <deflist> 表 示 除 了 第 一 个 变量 定义 外 剩余 的 部 分 ， 其 


"TF 


<deflist>->COMMA <defdata><deflist> | SEMICON 


这 里 <deflist> 仍 使 用 左 递归 定义 表示 任意 多 
个 “COMMA<defdata>” 的 组 合 ， 并 使 用 分 号 词法 记号 SEMICON 终 止 左 
递归 的 无 限 推导 过 程 。 


这 样 一 来 ， 使 用 非 终结 符 组 合 “<defdata><deflist>” 便 可 以 表示 所 有 


的 变量 定义 结构 。 


再 考虑 函数 的 定义 和 声明 。 函 数 的 定义 和 声明 拥有 公共 的 首部 ， 
包含 图 数 名 、 左 括号 、 形 式 参 数列 表 和 石 括号 。 使 用 <fun> 表 示 函 数 的 
定义 和 声明 (除去 返回 类 型 的 部 分 i ， 使 用 <para> 表 示 形 式 参数 列表 ， 
使 用 <block> 表 示 函 数 体 ， 于 是 有 : 


<fun>->ID LPAREN Be RPAREN SEMICON 
| ID LPAREN <para> RPAREN <block> 


提取 左 公 因子 后 得 到 : 


<fun>->ID LPAREN <para> RPAREN <funtail> 
<funtail>->SEMICON | <block> 


那么 对 于 <def> 的 定义 ， 可 以 描述 为 ; 


<def>-><defdata><deflist> | <fun> 


然而 ， 这 个 产生 式 是 不 满足 LL (1) 文法 的 ， 因 为 非 终结 符 
<defdata> 和 <fun> 有 公共 的 左 公 因子 ID! 为 了 解决 这 个 问题 ， 需 要 将 


<def> 展 开 。 


<def>->ID <varrdef><deflist> 
| MUL ID <init><deflist> 
| ID LPAREN <para> RPAREN <funtail> 


然后 合并 包含 左 公 因 子 D 的 产生 式 ， 完 成 <def> 的 拆 分 。 


<def>->ID <idtail> | MUL ID <init><deflist> 
<idtail>-><varrdef><deflist> | LPAREN <para> RPAREN <funtail> 


<funtail>->SEMICON | <block> 


根据 <def> 的 定义 ， 函 数 的 返回 值 类 型 只 能 是 基本 类 型 ， 而 不 能 是 
指针 类 型 ， 这 是 本 书 对 文法 的 简化 。 男 外 ， 文 法 定义 中 允许 出 现 void 类 


型 的 变量 ， 这 个 问题 也 留待 语义 分 析 时 解决 。 


3. 函 数 


函数 声明 和 定义 中 使 用 <para> 表 示 形 式 参数 列表 ， 男 数 定义 中 使 用 
<block> 表 示 函 数 体 的 内 容 。 


为 了 简化 文法 的 构造 ， 对 于 形式 参数 的 定义 及 其 类 型 ， 我 们 做 了 
如 下 几 点 限制 : 


1) 形式 参数 名 称 不 能 省 略 。 


2) 形式 参数 不 允许 有 点 认 值 。 


3) 数组 参数 必须 指定 数组 长 度 。 


除 此 之 外 ， 形 式 参数 和 变量 定义 的 文法 基本 一 致 。 使 用 <paradata> 
表示 一 个 形式 参数 去 除 类 型 的 部 分 ， 其 产生 式 为 : 


<paradata>->MUL ID | ID <paradatatail> 


<paradatatail>->LBRACK NUM RBRACK | & 


于 是 ， 使 用 非 终 结 符 组 合 “<type><paradata>” 便 可 以 表示 一 个 完整 


的 形式 参数 。 


形式 参数 列表 包含 一 个 形式 参数 以 及 后 继 的 以 '，' 分 割 的 任意 多 个 
形式 参数 的 组 合 。 使 用 非 终结 符 <paralist> 表 示 形 式 参数 列表 除了 第 一 
个 形式 参数 之 外 的 部 分 ， 使 用 左 递 归 形 式 定义 的 产生 式 如 下 : 


<paralist>->COMMA <type><paradata><paralist> | * 


使 用 非 终 结 符 组 合 “<type><paradata><paralist>” 便 可 以 表示 完整 的 
形式 参数 列表 ， 当 然 ， 形 式 参 数 也 可 以 为 空 。 


<para>-><type><paradata><paralist> | = 


授 下 来 拆 分 芳 数 体 <block>。 男 数 体 是 由 伦 括号 包含 起 来 的 局 部 变 
量 定义 或 语句 的 组 合 ， 因 此 <block> 的 产生 式 如 下 : 


<block>->lbrac<subprogram>rbrac 


<subprogram>-><localdef><subprogram> 
|<statement><subprogram> 


| 注 


非 终结 待 <subprogram> 表 示 子 程序 的 内 容 ，<localdef> 表 示 局 部 变 
量 定 义 ，<statement> 表 示 语 句 。 这 里 需要 留意 <localdef> 和 <statement> 
是 否 有 左 公 因子 ， 由 于 <localdef> 都 是 以 类 型 词法 记号 引导 的 ， 而 
<statement> 不 存在 以 类 型 词法 记号 开始 的 情况 ， 因 此 不 存在 左 公 因 
子 o 


局 部 变量 定义 和 前 面 描述 的 全 局 变量 的 定义 完全 相同 ， 因 此 其 产 
em 


<localdef>-><type><defdata><deflist> 


由 于 目 定 义 语言 文 持 C 语 言 常 用 的 语句 ， 因 此 语句 的 文法 定义 比较 


复杂 。 因 为 <statement> 中 包含 了 表达 式 ， 所 以 我 们 移 摘 述 表达 式 的 文 
法 ， 然 后 再 讨论 <statement> 的 文法 定义 。 


这 里 从 一 般 形 式 的 表达 式 开始 讨论 表达 式 的 文法 。 使 用 符号 <“@? 表 
示 通 用 的 表达 式 运算 符 ， 使 用 小 写字 母 表 示 表 达 式 的 操作 数 ， 那 么 表 
达 式 有 如 下 形式 : 


可 见 ， 表 达 式 的 文法 也 是 使 用 递归 的 产生 式 表示 : 


<expr>-><operand><exprtail> 
<exprtail>-><operator><operand><exprtail> | SEMICON 
<operator>->e 


<operand>->a | b|c..|z 


对 于 表达 式 “atb*c; ”， 经 上 述 文法 处 理 后 ， 得 到 的 抽象 语法 树 形 
式 如 图 3-14 所 示 。 


抽象 语法 树 的 结构 实际 上 是 对 产生 式 展开 后 的 形式 ， 叶 子 市 点 表 
示 终 结 符 ， 非 叶子 市 点 表 示 非 终结 符 ， 父 市 点 到 子 节 所 的 展开 表示 一 
次 产生 式 的 推 必 过程。 在 非 终 结 符 <exprtail > 上， 我 们 进行 表达 式 的 语 
义 解 析 过 程 。 在 第 一 级 <exprtail> 了 于 树 处 ， 根 据 读 取 的 左 操 作 数 'a'、 运 


算 符 +* 和 右 操作 数 由 构建 表达 式 ca+b*， 结 果 保存 到 临时 变量 dl。 在 第 
二 级 <exprtail> 子 树 处 ， 根 据 读 取 的 左 操作 数 tl、 运 算 符 w 和 右 操作 
数 'e 构 建 表达 式 "tlxc"， 结 果 保 存 到 临时 变量 t2'" 中 。 在 第 三 级 <exprtail> 
子 树 处 ， 读 取 操作 数 t2， 此 处 不 再 有 新 的 运算 符 和 操作 数 ， 因 此 不 构 
建 任何 表达 式 。 


我 们 发 现 ， 按 照 抽象 语法 树 的 解析 方式 ， 表 达 式 “at+b*c" 实 际 被 解 
析 为 “(atb) *c"”， 这 错误 地 解析 了 表达 式 的 原 有 含义 ! 而 按照 运算 符 
优先 级 的 规定 ， 原 表达 式 应 该 被 解析 为 “a+ (b*c) ”。 因 此 ， 使 用 通用 
的 运算 符 的 概念 构造 表达 式 文法 并 不 可 靠 ， 我 们 需要 在 文法 内 反映 出 
运算 符 的 优先 级 特性 。 
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图 3-14 ”表达 式 “atb*c” 抽 象 语法 树 


构造 保持 运算 符 优 先 级 特性 的 文法 的 方法 是 : 将 高 优 移 级 运算 符 
形成 的 表达 式 整 体 作为 低 优 先 级 运算 符 形 成 的 表达 式 的 操作 数 。 
按照 运算 符 优 先 级 构建 表达 式 文 法 ， 识 别 表 达 式 “atb*c” 的 抽象 语 
法 树 形 式 如 图 3-15 所 示 。 
expr 


yY ~ 


a 
-------- ~ de ea 
Be 只 人 
了 \ 
/ 起 \ 
这 itemtail op-low 
“ \ 
4 、\ 
i 


™ 
A 必 SS i 
¥ 一 ~、、 
< 4 


一 
’ / 


op-high factor itemtail 
” 
> ” 


图 3-15 ”考虑 运算 符 优先 级 的 表达 式 “atb*c” 抽 象 语法 树 


考虑 运算 符 的 优 移 级 后 ， 运 算 符 党 的 表达 式 子 树 优 先 被 处 理 。 在 非 
终结 符 <item> 处 ， 根 据 读 取 的 左 操作 数 'b'、 运 算 符 * 和 右 操 作 数 'c 构 建 
表达 式 “"b*c"”， 结 果 保 存 到 临时 变量 tt 中 。 在 非 终结 符 <exprtail> 处 ， 根 
据 读 取 的 左 操作 数 'a、 运 算 符 '+ 和 右 操作 数 t1 构 建 表 达 式 “a+tl”， 结 果 


保存 到 临时 变量 2 中。 通过 这 种 方式 可 以 正确 解析 表达 式 “a+b*c” 的 原 
有 侣 义 。 


根据 运算 符 的 优 和 级 ， 我 们 重新 构造 表达 了 式 的 文法 。 


<expr>-><item><exprtail> 
<exprtail>-><op-low><item><exprtail> | SEMICON 
<op-low>->+ 

<item>-><factor><itemtail> 
<itemtail>-><op-high><factor><itemtail> | * 


<op-high>->* 
<factor>->a | b|c..|z 


从 前 面 的 讨论 可 以 看 出 ， 运 算 符 的 优先 级 影响 表达 式 的 文法 ， 那 
么 运算 符 的 结合 性 是 否 也 对 表达 式 文法 有 影响 呢 ? 回顾 图 3-15 表 达 式 的 
抽象 语法 树 ， 我 们 发 现在 非 终结 符 <exprtail> 或 <itemtail> 处 ， 可 以 进行 
灵活 的 选择 。 例 如 对 于 非 终结 符 <exprtail>， 可 以 选择 ; 


1) 按照 运算 符 <op-low> 将 右 操 作 数 <item> 与 前 面 的 左 操 作 数 
<item> 结 合 ， 再 处 理 后 面 的 表达 式 <exprtailj>。 这 种 方式 称 为 运算 符 的 
左 结合 ， 比 如 表达 式 “atb+c” 被 处 理 为 “(a+b) +c”。 


2) 先 按 照 <exprtail> 提 供 的 运算 符 ， 将 右 操作 数 <item> 与 后 面 的 表 
达 式 <exprtail> 进 行 结合 ， 再 按照 运算 符 <op-low>， 将 得 到 的 结果 与 前 
面 的 堪 操 作 数 <item> 进 行 结合 。 这 种 方式 称 为 运算 符 的 右 结合 ， 比 如 
表达 式 “a=b=c” 被 处 理 为 “a= (b=c) ”。 


因此， 运算 符 的 结合 性 不 影响 表达 式 文法 的 构造 。 通 过 对 表达 式 
语义 不 同方 式 的 处 理 ， 可 以 正确 地 表达 运算 符 的 结合 性 ， 在 后 面 代码 
生成 部 分 会 对 其 做 详细 的 描述 。 


表 3-5 给 出 了 所 有 运算 符 的 优先 级 和 结合 性 ， 其 中 运算 符 的 优先 级 


值 越 小 ， 优 先 级 越 高 。 


表 3-5 ”运算 符 优 先 级 与 结合 性 


运算 符 含 义 优先 级 结合 性 

三 赋值 10 右 结合 

| 风 辑 或 9 左 结合 

帮 攻 逻辑 与 8 左 结合 

> 云 3 = I= 夫 于 四 于 下 于 区 于 、 水 于 等 于 千 于 , 浪 等 于 7 左 结 合 
第 .= 加 法 、 减 法 左 结 合 
-本 乘法 、 除 法 、 取 模 5 左 结合 

1 逻辑 非 、 取 负 、 取 址 、 指 针 、 前 置 ++、 前 置 -- 4 右 结合 
eg :2 后 置 ++: 后 置 -- 3 右 结 合 

() 括号 2 左 结合 

[] () 数组 索引 、 函 数 调用 hl 左 结 合 


根据 运算 符 的 优先 级 ， 可 以 按照 前 面 讨论 的 方法 构造 目 定义 语言 


表达 式 的 文法 。 从 最 低 优先 级 的 赋值 运算 符 到 最 高 优先 级 运算 


达 式 文法 的 构造 方式 如 下 。 


的 表 


赋值 表达 式 的 运算 符 为 ASSIGN， 包 含 两 个 逻辑 “或 "表达 式 操作 
数 。 赋值 表达 式 <assexpr> 的 文法 为 : 


<assexpr>-><orexpr><asstail> 


<asstail>->ASSIGN <orexpr><asstail> | * 


产 格 来 说 ， 赋 值 运算 符 的 左 操作 数 只 能 是 左 值 表 达 式 。 逮 


辑 “ 或 ”表达 式 一 定 是 右 值 表达 式 ， 是 不 能 作为 赋值 运算 符 的 左 操作 数 
的 。 这 个 问题 也 消 后 到 语义 分 析 时 进行 处 理 。 


逻辑 “或 ?表达 式 的 运算 符 为 OR， 包 含 两 个 逻辑 “与 ?表达 式 操 作 
数 。 逻 辑 “ 或 ”表达 式 <orexpr> 的 文法 为 : 


<orexpr>-><andexpr><ortail> 


<ortail>->OR <andexpr><ortail> | 8 


逻辑 “与 ”表达 式 的 运算 符 为 AND， 包 含 两 个 关系 表达 式 操作 数 。 
逻辑 “与 ”表达 式 <andexpr> 的 文法 为 : 


<andexpr>-><cmpexpr><andtail> 


<andtail>->AND <cmpexpr><andtail> | * 


关系 表达 式 的 运算 符 为 GTIGEILTILEIEQUINEQU， 包 含 两 个 算术 表 
达 式 操作 数 。 关 系 表达 式 <cmpexpr> 的 文法 为 : 


<cmpexpr>-><aloexpr><cmptail> 


<cmptail>-><cmps><aloexpr><cmptail> | * 


<cmps>->GT | GE | LT | LE | EQU | NEQU 


算术 表达 式 的 运算 符 为 ADDISUB， 包 含 两 个 项 表达 式 操作 数 。 算 
术 表 达 式 <aloexpr> 的 文法 为 : 


<aloexpr>-><item><alotail> 


<alotail>-><adds><item><alotail> | s 


<adds>->ADD | SUB 


项 表达 式 的 运算 符 为 MULIDIVIMOD， 包 含 两 个 因子 表达 式 操作 
数 。 项 表达 式 <item> 的 文法 为 : 


<item>-><factor><itemtail> 


<itemtail>-><muls><factor><itemtail> | : 


<muls>->MUL | DIV | MOD 


因子 表达 式 的 运算 符 为 NOTISUBILEAIMULIINCRIDECR， 包 含 一 
个 仍 为 因子 表达 式 的 操作 数 ， 因 子 表达 式 可 以 是 值 表 达 式 。 因 子 表达 
式 比较 特殊 ， 运 算 符 出 现在 操作 数 的 左 侧 。 因 子 表达 式 <factor> 的 文法 
为 : 


<factor>-><lop><factor>|<val> 


<lop>->NOT | SUB | LEA | MUL | INCR | DECR 


值 表 达 式 的 运算 符 为 INCRIDECR， 包 含 一 个 元 素 表达 式 操 作 数 。 
值 表 达 式 比较 特殊 ， 运 算 符 出 现在 操作 数 的 右 侧 ， 且 只 能 出 现 一 次 。 
引入 值 表达 式 主要 是 方便 循环 语句 内 循环 因子 的 目 加 或 目 减 。 值 表达 
式 <val> 的 文法 为 : 


<val>-><elem><rop> 


<rop>->INCR | DECR 


元 取 表 达 式 不 包含 运算 符 ， 它 是 表达 式 的 基本 操作 数 单元 。 束 我 
们 所 知 ， 可 以 参与 表达 式 运算 的 操作 有 变量 、 数 组 、 玉 数 调用 、 插 号 
表达 了 式 和 和 音量 。 元 系 表 达 式 <elem> 的 文法 力 : 


<elem>->ID 

ID LBRACK <expr> RBACK 

ID LPAREN <realarg> RPAREN 
LPAREN <expr> RPAREN 
<literal> 


其 中 前 三 条 产生 式 包 仿 左 公 因 子 ID， 提 取 左 公 因 子 后 得 到 : 


<elem>->ID <idexpr> | LPAREN <expr> RPAREN | <literal> 


<idexpr>->LBRACK <expr> RBRACK | LPAREN <realarg> RPAREN | * 


函数 调用 的 实际 参数 列表 是 由 喜 号 分 割 的 表达 式 列 表 或 为 裤 ， 文 
法 如 下 : 


<realarg>-><arg><arglist> |s 


<arglist>->COMMA <arg><arglist> | * 


<arg>-><expr> 


<literal>->NUM | CH | STR 


这 样 ， 我 们 完成 了 赋值 表达 式 的 文法 构造 。 由 于 没有 比 赋值 运算 
从 更 低级 的 运算 符 ， 因 此 表达 式 直 接 用 赋值 表达 式 表 示 : 


<expr>-><assexpr> 


考虑 循环 语句 内 循环 条 件 使 用 的 表达 式 可 以 为 空 ， 因 此 我 们 使 用 
非 终结 符 <altexpr> 表 示 可 以 为 空 的 表达 式 。 


<altexpr>-><expr> |s 


至 此 ， 我 们 完成 了 表达 式 文 法 的 构造 。 


二 证 何 


完成 表达 式 的 文法 构造 后 ， 语 名 的 文法 构造 承 比 较 容 易 了 。 目 定 
义 语 言 包 售 的 语句 有 表达 式 语 句 ，while、do-while、for 循 环 语 句 ; 让 


else、switch-case 分 支 语 句 ， 以 及 break、continue 和 retum 语 句 。 
语句 的 文法 定义 如 下 : 


<statement>-><altexpr>SEMICON 
| <whilestat>|<forstat>|<dowhilestat> 
| <ifstat>|<switchstat> 
| KW_BREAK SEMICON 
| KW_CONTINUE SEMICON 


| KW_RETURN <altexpr> SEMICON 


while 循 环 语句 的 文法 如 下 : 
<whilestat>->KW_WHILE LPAREN <altexpr> RPAREN <block> 
其 中 <altexpr> 人 允许 循环 条 件 为 空 ， 空 循环 条 件 表示 永 真 。<block> 表 示 
循环 体 ， 与 函数 体内 容 等 价 。 
do-while 循 环 语句 的 文法 为 : 


<dowhilestat>->KW_DO <block> KW WHILE LPAREN <altexpr> RPAREN SEMICON 


for 循 环 语句 的 文法 为 : 


<forstat>->KwW_FOR LPAREN <forinit><altexpr> SEMICON <altexpr> RPAREN <block> 


<forinit>-><localdef> | <altexpr> SEMICON 


其 中 <forinit> 表 示 for 循 环 的 初始 化 语句 ， 它 可 以 是 局 部 变量 的 定义 ， 也 
可 以 是 表达 式 语句 。 


if-else 分 文 语句 的 文法 为 : 


<ifstat>->KW_IF LPAREN <expr> RPAREN <block><elsestat> 


<elsestat>->KW_ELSE <block> | * 


其 中 让 语 句 的 条 件 表 达 式 不 允许 为 裤 ， 因 此 使 用 <expr> 表 示 ， 而 不 是 
<altexpr>，else 语 句 可 以 不 存在 。 


switch-case 分 文 语句 的 文法 为 : 


<switchstat>->KwW_SWITCH LPAREN <expr> RAPREN LBRAC <casestat> RBRAC 


<casestat>->KW_CASE <caselabel> COLON <subprogram><casestat> 


| KW_DEFAULT COLON <subprogram> 


<caselabel>-><literal> 


其 中 ， 非 终结 符 <casestat> 表 示 多 个 case 语 句 ， 且 以 default 语 句 结 
束 。<caselabel> 表 示 case 的 标签 ， 必 须 是 数字 或 字符 党 量 ， 而 不 能 是 字 


符 串 常量 ， 这 个 问题 在 需要 语义 分 析 时 进行 解决 。 


通过 构造 语句 的 文法 ， 我 们 可 以 得 出 一 个 结论 : 表达 式 为 程序 提 
供 真 正 的 计算 ， 语 名 为 程序 提供 控制 流程 ， 函 数 为 程序 提供 功能 才 


装 ， 全 局 变量 为 程序 提供 信息 共享 。 


至 此 ， 我 们 完成 了 所 有 文法 的 定义 。 接 下 来 ， 融 是 根据 文法 定义 
构建 语法 分 析 器 ， 识 别 程序 的 语法 模块 。 


3.2.2 ”递归 下 降 子 程序 


前 面 讨论 过 ， 我 们 使 用 LL (1) 文法 分 析 算 法 可 以 完成 高 级 语言 
的 语法 分 析 。 一 般 编 译 原理 教材 中 ， 描 述 了 通过 计算 LL (1) 文法 的 
FIRST、FOLLOW 和 SELECT 集合 ， 构 建 LL (1) 分 析 表 进行 语法 分 
析 ， 这 有 点 类 似 基于 表 驱 动 的 词法 分 析 。 本 书 不 讨论 LL (1) 分 析 表 
的 构建 方法 ， 对 此 感 兴趣 的 读者 可 以 参考 编译 原理 相关 教材 。 我 们 仍 
采用 “ 硬 编码 ”的 方式 进行 LL (1) 分 析 ， 即 递归 下 降 子 程序 。 


递归 下 降 子 程序 实现 的 语法 分 析 器 是 由 一 系列 的 子 程序 完成 的 ， 
不 同 的 子 程序 负责 识别 不 同 的 语法 模块 。 由 于 语法 模块 与 抽象 语法 子 
树 一 一 对 应 ， 且 抽象 语法 子 树 是 由 非 终结 符 通过 产生 式 展 开 形成 ， 因 
此 每 个 非 终 结 符 与 子 程序 一 一 对 应 。 子 程序 有 可 能 是 递归 的 ， 说 明子 
程序 可 以 完成 重复 形式 的 语法 模块 识别 ， 这 与 右 递归 形式 的 产生 式 是 
对 应 的 。 从 这 一 点 也 能 说 明 LL (1) 文法 的 产生 式 为 何不 能 出 现 左 递 
归 ， 因 为 左 递 归 的 子 程序 无 法 终止 。 从 抽象 语法 树 的 形式 上 看 ， 弟 归 
下 降 子 程序 是 从 树 根 的 非 终 结 符 开 始 ， 依 次 展开 直达 叶子 市 点 ， 是 一 
个 目 顶 向 下 的 过 程 。 抽 象 语法 树 的 展开 由 产生 式 的 推导 形成 ， 产 生 式 
右 侧 的 终结 符 直 接 与 输入 的 词法 记号 进行 匹配 ， 产 生 式 右 侧 的 非 终结 
和 从 转化 为 对 应 子 程序 的 琅 数 调用 。 


选择 产生 式 4 一 BIB7.B， 


万 是 非 终结 符 ? 


N 
读 入 词法 记号 艺 


处 理 完 B({i=1..n)? 
TY 
执行 产生 式 4 语义 动作 


图 3-16 递归 下 降 子 程序 的 构造 


图 3-16 摘 述 了 递归 下 降 子 程序 的 构造 方法 ， 其 构造 规则 摘 述 如 
下 : 


1) 文法 中 的 每 个 非 终结 符 对 应 一 个 子 程序 《函数 ) 。 


2) 文法 中 的 每 个 产生 式 对 应 子 程序 内 的 一 个 分 文 。 


3) 产生 式 中 的 非 终结 符 转 化 为 对 应 子 程序 的 调用 。 


4) 产生 式 中 的 终结 符 与 当前 读 入 的 词法 记号 进行 匹配 。 


5) 终结 符 与 当前 读 入 的 词法 记号 匹配 失败 时， 需要 报告 语法 错 
误 ， 并 进行 相应 的 错误 修复 。 


6) 产生 式 处 理 时 ， 需 要 执行 当前 子 程序 分 文 相关 的 语义 动作 ， 比 
如 符号 表 管理 、 语 义 分 析 和 代码 生成 。 


举例 说 明 ， 例 如 while 循 环 语句 的 文法 。 


<whilestat>->KW_WHILE LPAREN <altexpr> RPAREN <block> 


按照 上 述 规 则 构造 <whilestat> 的 递归 下 降 子 程序 为 : 


1 void Parser: :whilestat 


() 

2 1 

3 match(Kw_ WHILE 

); 

4 if(!match(LPAREN 

) ) 

5 让 FIRST| |F (RPAREN) 

6 LPAREN_LOST, LPAREN_ WRONG ) ， 
7 altexpr 

(); 

8 if(!match (RPAREN 

)) 

9 recovery(F(LBRACE),RPAREN_LOST, RPAREN_WRONG); 
10 block 

(); 

11 } 


产生 式 左 侧 的 非 终结 符 <whilestat> 转 化 为 子 程序 whilestat 。 


第 7、10 行 将 非 终结 符 <altexpr> 和 <block> 转 化 为 子 程序 altexpr 和 
block 的 调用 。 


加 


数 对 终结 符 KW_WHILE、LPAREN、 
数 功 能 与 词法 分 析 器 的 scan 范 数 类 似 。 


第 3、4、8 行 使 用 matchE 
RPAREN 进 行 匹 配 ，match 的 外 


民 | 


1 void Parser::move 


() 

2 荆 

3 look=lexer .tokenize(); 
4 } 

5 bool Parser::match 

(Tag need) 

6 I 

7 if(look- 

tag==need){ 

8 move( ) ; 

9 return true; 
10 } 

11 else 

12 return false; 
13 } 


其 中 move 函 数 使 用 词法 分 析 器 的 tokenize 范 数 读 取 词 法 记号 ， 并 
将 之 记录 到 变量 look 中 (保存 了 当前 读 入 的 待 匹 配 的 词法 记号 ) 。 
match 将 参数 need 与 读 入 的 词法 记号 进行 匹配 ， 匹 配 成 功 后 读 入 下 一 个 
词法 记号 ， 返 回 真 。 否 则 ， 返 回 假 ， 不 继续 读 入 词法 记号 。 


whilestat 夯 数 的 第 3 行使 用 match 函 数 匹 配 KW_WHILE 时 并 未 判断 
终结 符 是 否 匹 配 ， 这 是 因为 <statement> 产 生 式 包含 <whilestat>， 


statement 子 程序 在 调用 whilestat 之 前 已 经 判断 了 look 是 KW_WHILE， 


因此 match 必 然 返 回 真 。 而 对 LPAREN 和 RPAREN 则 需要 判断 是 否 与 
look 匹 配 ， 不 匹配 时 则 调用 recovery 范 数 报告 语法 错误 并 进行 错误 恢 
复 。 销 误 恢 复 算 法 的 实现 在 后 面 会 具体 描述 。 


对 于 非 终 结 符 <whilestat>， 它 只 包含 一 条 产生 式 ， 因 此 子 程序 
whilestat 内 只 有 一 个 分 支流 程 。 


<statement>-><altexpr>SEMICON 
<whilestat>|<forstat>|<dowhilestat> 
<ifstat>|<switchstat> 

KW_BREAK SEMICON 

KW_CONTINUE SEMICON 

KW_RETURN <altexpr> SEMICON 


而 对 于 非 终结 符 <statement> 则 包含 多 个 产生 式 ， 其 子 程序 


statement 包 含 多 个 分 支 。 


1 void Parser: :statement 


switch(look->tag) 


JI 上 PP 一 


{ 
case KW_ WHILE:whilestat 


();break; 
6 case KW_FOR:forstat 


();break; 
7 case KW_DO:dowhilestat 


();break; 
8 case KwW_IF:ifstat 


();break; 
9 case KwW_SWITCH:switchstat 


();break; 
10 case KW_ BREAK 
11 move( );，; 


12 if(!match(SEMICON 


) ) 


13 recovery(TYPE_FIRST| | STATEMENT_FIRST| |F(RBRACE) 


14 ; SEMICON_LOST, SEMICON_WRONG ) ; 

15 break; 

16 case KW_CONTINUE 

17 move( ); 

18 if(!match(SEMICON 

)) 

19 recovery(TYPE_FIRST| |STATEMENT_FIRST| |F(RBRACE) 
20 SEMICON_LOST, SEMICON_WRONG ) ; 

21 break; 

22 case KW_RETURN 

23 move( );，; 

24 altexpr 

(); 

25 If(!match(SEMICON 

) ) 

26 recovery(TYPE_FIRST| |STATEMENT_FIRST| |F(RBRACE) 
27 ; SEMICON_LOST, SEMICON_WRONG ) ; 

28 break; 

29 default: 

30 altexpr 

(); 

31 If(!match(SEMICON 

) ) 

32 recovery(TYPE_FIRST| |STATEMENT_FIRST| |F(RBRACE) 
33 ; SEMICON_LOST, SEMICON_WRONG)，; 

34 } 

35 } 


由 于 look 保 存 的 是 当前 读 入 的 待 匹 配 的 词法 记号 ， 第 3 行 根据 look 
的 tag 字 段 对 应 的 终结 答 选 择 相应 的 产生 式 。 


第 5~9 行 实现 了 以 非 终 结 符 开始 的 产生 式 ，case 标 签 的 值 为 该 非 终 
结 符 的 FIRST 集 。 假 如 某 个 非 终 结 符 的 FIRST 集 合 元 素 个 数 大 于 1， 则 


应 该 使 用 if 分 文 语句 符 换 switch 语 句 。 


第 10~33 行 实现 了 以 终结 符 开 始 的 产生 式 ，case 标 签 的 值 为 产生 式 
的 第 一 个 终结 符 。 


一 人 


从 递归 下 降 子 程序 的 实现 来 看 ， 可 以 发 现 构造 LL (1) 文法 时 提 
取 左 公 因 子 的 原因 。 这 是 因为 产生 式 包含 左 公 因子 时 ， 递 归 下 降 子 程 
序 无 法 通过 条 件 判断 选择 唯一 的 分 支流 程 。 


回 到 文法 定义 的 第 一 条 产生 式 ; 


<program>-><segment><program> | s 


这 种 类 型 的 产生 式 比较 特殊 ， 因 为 产生 式 内 包含 空 终结 符 e。 空 终 

结 符 不 是 有 效 的 词法 记号 ， 因 此 不 能 通过 对 look 的 判断 来 决定 不 同 产 

生 式 的 选择 。 当 产生 式 为 空 终结 符 时 ， 使 用 产生 式 左 侧 的 非 终结 符 的 
FOLLOW 集合 作为 选择 产生 式 的 条 件 。 


SELECT 集合 


在 编译 原理 教材 中 ， 有 关 LL (1) 分 析 的 章节 中 会 讨论 SELECT 集 
合 的 概念 ，SELECT 集 合 的 定义 如 下 : 


给 定 产生 式 A->a， 如 果 a 不 能 推导 出 空 终结 符 g， 则 SELECT (A- 
>a) =FIRST (a) 。 如 果 a 可 以 推导 出 空 终结 符 g， 则 SELECT (A->a) 


= (FIRST (a) -{e}) UFOLLOW (A) 


而 判定 一 个 文法 是 否 是 LL (1) 文法 的 充 要 条 件 是 : 对 任意 非 终 
结 符 A 的 任意 两 个 不 同 的 产生 式 A->a 和 A->b， 满 足 SELECT (A->a) 
NSELECT (A->b) =G 。 


因此 ， 前 面 讨 论 了 产生 式 递归 下 降 子 程序 的 方法 正 是 SELECT 集 
合 特点 的 体现 。 即 产生 式 右 侧 不 能 推导 出 空 非 终结 符 时 使 用 产生 式 的 
FIRST 集 合 决 定 产生 式 的 选择 。 和 否则 ， 还 要 考虑 产生 式 的 FOLLOW 集 
合 。 只 要 满足 LL (1) 文法 ， 则 保证 同一 个 终结 符 的 产生 式 的 SELECT 
集合 互 不 相交 ， 从 而 保证 了 产生 式 选择 的 唯一 性 。 


非 终结 符 <program> 表 示 整 个 源 程序 ， 其 FOLLOW 集合 只 包含 一 
个 非 终结 符 一 一 文件 结束 符 词 法 记号 END。 因 此 ，program 子 程序 实现 
如 下 : 


1 void Parser::program 


< 
一 


if(look->tag==END 


一 


return ， 


} 
elsef{ 
segment 


— 
~ 


program 


PO 一 oo 一 ~ILOD OU 上 一 ND 一 
\ 一 


当 遇 到 终结 符 END 时 ，program 子 程序 退出 ， 停 止 右 递归 过 程 。 这 
里 可 以 看 出 LL (1) 文法 不 允许 出 现 左 递归 的 原因 ， 假 如 交换 第 7 行 与 
第 8 行 的 代码 顺序 ， 如 采 不 考虑 判断 条 件 ，program 函 数 将 是 无 限 化 归 
的 过 程 。 


由 于 program 子 程序 是 语法 分 析 过 程 中 最 先 执行 的 子 程序 ， 因 此 在 
执行 program 子 程序 之 前 ， 需 要 调用 move 碎 数 将 第 一 个 词法 记号 读 入 


变量 1ook。 


1 void Parser::analyze 


() 

2 I 

3 move( ); 
4 program( ); 
5 } 


函数 analyze 和 是 语法 分 析 顺 的 主 程序 ， 调 用 它 可 以 完成 语法 分 析 过 
程 。 


包含 空 终结 符 的 产生 式 还 有 一 种 特殊 情况 ， 例 如 非 终 结 得 <init> 的 
产生 式 : 


<init>->ASSIGN <expr> | : 


该 产生 式 除了 产生 空 终结 符 之 外 ， 其 他 产生 式 都 是 以 终结 符 开始 
的 ， 我 们 优先 对 该 类 产生 式 进行 判断 选择 。 


1 void Parser::init 


if(match(ASSIGN)){ 
expr(); 


OOWON 


当 遇 到 终结 符 ASSIGN 后 ， 则 调用 expr 子 程序 继续 分 析 ， 和 否则 结 
init 子 程序 。 这 里 不 需要 对 空 终结 符 产 生 式 进行 处 理 ， 即 不 通过 判断 
<init> 的 FOLLOW 集 来 选择 空 终结 符 对 应 的 产生 式 。 因 为 后 继 的 其 他 
子 程序 读 入 这 个 词法 记号 时 ， 会 立即 发 现 这 个 错误 。 


| 悦 


悦 


按照 前 面 描述 的 递归 下 降 子 程序 的 构造 方法 ， 可 以 将 3.2.1 世 定义 
的 全 部 文法 转化 为 语法 分 析 程序 ， 这 里 不 再 重复 列举 其 他 子 程序 的 实 
现代 码 。 我 们 发 现 ， 递 归 下 降 子 程序 实现 的 语法 分 析 需 并 未 像 独 3-13 
描述 的 那样 输出 语法 模块 的 信和 轧 。 编译 原理 的 教材 中 一 般 将 语法 分 析 
妖 的 输出 描述 为 抽象 语法 树 ， 抽 象 语法 树 的 每 个 节点 也 称 为 语法 模 
块 ， 对 应 递归 下 降 子 程序 的 每 个 子 程序 。 我 们 可 以 为 每 个 子 程序 添加 
抽象 语法 树 生成 代码 ， 将 抽象 语法 树 保 存 到 内 存 数据 结构 或 者 临时 文 
件 内 。 但 是 还 有 一 种 更 简单 的 方式 是 直接 在 递归 下 降 子 程序 内 进行 语 
义 动作 ， 这 是 因为 递归 下 降 子 程序 的 递归 调用 过 程 已 经 强 含 了 抽象 语 
法 树 的 结构 。 正 如 图 3-16 摘 述 的 那样 ， 在 子 程序 内 执行 符号 表 管 理 、 
语义 分 析 和 代码 生成 的 工作 。 这 样 的 过 程 称 为 语法 制导 ， 即 根据 语法 
分 析 识 别 的 流程 来 确定 语法 模块 ， 并 进行 相关 的 语义 动作 。 


3.2.3 ”错误 处 理 


对 于 合法 的 源 程序 输入 ， 执 行 上 述 构 造 完成 的 语法 分 析 程 序 后 ， 
analyze 芳 数 会 正 第 结束 。 但 古 ， 一 个 健壮 的 语法 分 析 屁 在 语法 分 析出 
错时 ， 要 能 恢复 到 正常 语法 分 析 流 程 。 


例如 ， 源 程序 为 “int a; ”， 通 过 词法 分 析 产 生 的 词法 记号 序列 为 
(KW_INT，ID，SEMICON，END) ， 语 法 分 析 可 以 正常 分 析 这 段 程 
序 。 假 如 将 源 程序 修改 为 “<a; ”， 词 法 分 析 器 产生 的 词法 记号 序列 为 
(ID，SEMICON，END) 。 而 根据 正常 的 语法 分 析 流 程 ， 首 先 读 入 
ID， 并 与 类 型 <type> 匹 配 ， 匹 配 失败 报告 类 型 匹配 错误 。 然 后 读 入 
SEMICON， 并 与 人 D 匹 配 ， 匹 配 失 败 报 告 标识 符 匹 配 错 误 。 最 后 读 入 
END， 并 与 SEMICON 匹 配 ， 匹 配 失 败 报告 分 号 丢失 和 错误。 我 们 发 现 ， 
原本 只 是 一 个 类 型 丢失 的 语法 错误 ， 按 照 上 述 语法 分 析 过 程 ， 会 导致 
后 继 终结 符 的 匹配 发 生 * 连 锁 反 应 ”， 从 而 产生 更 多 的 语法 错误 。 


如 果 语 法 分 析 器 在 识别 出 某 个 非 终 结 符 丢失 错误 时 ， 及 时 修正 词 
法 记号 读 取 的 "位置 >， 将 语法 分 析 过 程 恢复 到 正 间 的 流程 上 来 ， 便 可 
以 有 效 避 免 语 法 错误 的 “连锁 反应 ”。 为 此 ， 我 们 设计 了 一 个 简单 的 语 


法 错误 恢复 算法 。 


XEFIRST(B .B)? 


不 匹配 符号 下 


图 3-17 错误 恢复 算法 流程 


图 3-16 中 ， 在 处 理 产生 式 A -Bi B, ..B, 时 ， 如 果 在 终结 符 B; 处 与 
读 入 的 词法 记号 X 匹 配 失败 ， 则 进行 如 图 3-17 的 错误 恢复 处 理 。 通 过 判 
断 读 入 的 词法 记号 X 是 否 属于 终结 符 B; 后 继 产 生 式 Bij,; ..B, 的 FIRST 

， 来 决定 当前 竺 匹配 的 非 终结 符 是 符号 丢失 错误 ， 还 是 符号 匹配 错 
误 。 其 中 FIRST (Bi,; ..B,) 的 定义 为 : 


1) 如 果 B,, 不 能 推导 出 空 终结 符 g， 则 FIRST (Bi,; ..B, ) =FIRST 


(Bi 上 


2) 如 采 Bita 能 推导 出 空 终结 符 s， 则 FIRST (Bi .Bn ) = (FIRST 
(Bi ) -{e}j) UFIRST (Ba .Bu) 。 


3) 对 于 FIRST (B,) ， 如 果 B, 能 推导 出 空 终结 符 s， 则 FIRST 


(B,) = (FIRST (B,) -{e}) UFOLLOW (A) 。 


根据 这 样 的 形式 化 定义 ，FIRST (B;,1 .B, ) 集合 内 保存 了 终结 符 
B; 后 可 能 出 现 的 所 有 终结 符 。 图 3-17 描 述 的 错误 恢复 算法 的 基本 思想 


和 是， 大 终结 符 匹 配 失 败 ， 则 检查 当前 读 入 的 词法 记号 是 否 是 行 匹 配 非 
入 


丢失 ， 否 则 认为 待 匹 配 的 非 终结 符 匹配 出 错 ， 继 续 读 入 下 一 个 词法 记 
其 代码 描述 如 下 : 


[© 


号 


1 void Parser::recovery 


(bool cond,SynError lost,SynError wrong) 
2 


{ 
3 if(cond) // 在 给 定 的 
Fol1low 集 合 内 
4 SYNERROR( lost, look); 
5 elsef 
6 SYNERROR(wrong, look); 
7 move( ); 
8 
9 } 


函数 recovery 摘 述 了 销 误 恢复 的 算法 实现 ， 参 数 cond 摘 述 当 前 读 入 
的 词法 记号 look 是 否 属于 FIRST (Bi,; .B, ) 集合 ， 而 参数 lost 和 wrong 
描述 了 未 匹配 终结 符 B; 的 丢失 和 匹配 错误 信息 的 类 型 。SYNERROR 安 
用 于 输出 语法 错误 信息 ， 后 面 会 详细 介绍 它 的 实现 。 


参数 cond 保 存 逻 辑 真 假 值 ， 表 示 当 前 词法 记号 look 是 否 属于 FIRST 
(Bi41 .Bu ) 集合 ， 在 我 们 实现 的 语法 分 析 器 中 并 未 计算 FIRST (Bi41 


.Bu ) ， 而 是 直接 通过 硬 编码 完成 集合 元 素 的 比较 。 假 如 集合 FIRST 
(Bi ..B, ) ={KW_INT，KW_CHAR，KW_VOID} (这 里 B; 是 非 终 结 
符 <type>) ， 那 么 计算 cond 值 使 用 的 代码 为 : 


look->tag==KW_INT| |look->tag==KW_CHAR| |look->tag==KW_VOID 


为 了 将 代码 们 化， 我 们 定义 如 下 两 个 位 和 单 的 宏 代 疹 这 个 逻辑 表达 
a 


#define _(T) ||look->tag==T 
#define F(C) look->tag==C 


使 用 这 两 个 宏 计算 cond 值 的 逻辑 表达 式 为 : 


F(KW_INT)_(KW_CHAR)_(Kw_VvoID) 


使 用 逻辑 表达 式 确定 look 是 否 属于 FIRST (Bi41 .Bu ) 集合 比 构造 


需要 说 明 的 是 ， 我 们 实现 的 错误 恢复 算法 虽然 可 以 在 一 定 程度 上 
避免 因 终 结 符 丢 失 时 产生 的 语法 错误 而 引起 的 连锁 反应 ， 但 是 仍 有 不 
足 之 处 。 例 如 终结 人 符 匹配 失败 时 ， 如 末 读 入 的 词法 记号 不 在 FIRST 
(Bir1 .Bu ) 集合 内 ， 那 么 再 次 读 入 的 词法 记号 将 仍 会 按照 原来 的 语法 
分 析 流 程 继续 分 析 ， 而 不 能 保证 该 词法 记号 的 分 析 过 程 进 入 正确 的 语 
法 分 析 器 程序 ， 从 而 也 可 能 报告 更 多 的 语法 错误 。 实 际 针对 语法 分 析 


器 的 使 用 测试 中 ， 这 样 的 情况 出 现 的 次 数 并 不 多 ， 这 征 因为 大 部 分 语 
法 分 析出 错 的 代码 很 多 情况 来 源 于 编程 者 的 书写 错误 和 芷 漏 。 即 使 语 
法 分 析 器 报告 了 大 量 的 不 该 出 现 的 语法 错误 信息 ， 我 们 仍 能 确定 第 一 
条 语法 错误 的 准确 性 ， 通 过 对 错误 的 修改 ， 可 以 有 效 地 减少 类 似 错误 
情况 的 出 现 。 当 然 ， 我们 也 可 以 对 以 上 的 错误 恢复 算法 做 一 定 的 修 
改 。 在 出 现 终结 符 匹 配 失 败 错误 时 ， 不 是 简单 地 读 入 下 一 个 词法 记 


(Bi41 .Bu ) 集合 为 止 。 这 样 做 看 起 来 每 次 的 错误 恢复 都 能 保证 语法 分 
析 回 到 正常 的 流程 ， 但 是 一 旦 出 现 将 所 有 的 词法 记号 读 取 完毕 仍 不 能 
发 现 FIRST (Bi,; ..B, ) 集合 内 的 元 素 时 ， 就 会 产生 更 多 的 语法 错误 。 
可 见 ， 错 误 恢复 算法 并 没有 实际 的 标准 ， 语 法 分 析 器 的 实现 者 需要 根 
据 具体 需要 做 不 同 的 选择 。 我 们 这 里 只 是 描述 了 错误 恢复 算法 的 基本 
思想 ， 读 者 可 以 尝试 编写 自己 的 错误 恢复 算法 ， 并 对 错误 恢复 算法 的 
健壮 性 进行 测试 。 


在 报告 词法 错误 的 信息 时 ， 需 要 指定 出 现 词法 错误 的 位 置 ， 包 括 
文件 名 、 行 列 位 置 和 错误 类 型 信息 。 而 在 报告 语法 错误 时 ， 需 要 指定 
语法 错误 的 位 置 ， 包 括 文件 名 、 行 位 置 、 错 误 类 型 以 及 出 错时 读 入 的 
词法 记号 一 一 它 标识 了 语法 错误 的 具体 的 行内 位 置 。 在 我 们 实现 的 语 
法 分 析 右 中 处 理 的 语法 错误 如 表 3-6 所 示 。 


表 3-6 ”语法 错误 表 


语法 错误 类 型 


pa 
dil 符号 丢失 错误 符号 匹配 错误 
类 型 TYPE LOST TYPE WRONG 
标识 符 ID LOST ID WRONG 
数字 NUM LOST NUM WRONG 
常量 LITERAL LOST LITERAL WRONG 
COMMA LOST COMMA WRONG 
; SEMICON LOST SEMICON WRONG 
二 ASSIGN LOST ASSIGN WRONG 
: COLON LOST COLON WRONG 
while WHILE LOST WHILE WRONG 


LPAREN LOST 
RPAREN LOST 


LPAREN WRONG 
RPAREN WRONG 


LBRACK LOST 


LBRACK WRONG 


RBRACK LOST 


RBRACK WRONG 


3-6 提 供 的 语法 错误 信 , 


LBRACE LOST 
RBRACE LOST 


LBRACE WRONG 
RBRACE WRONG 


在 扫 摘 万 内 ， 我 们 计算 了 字符 所 在 行 的 位 置 ， 同 时 候 存 了 处 理 的 
源 文 件 的 名 称 ， 语 法 分 析 夷 内 look 保 存 了 当前 读 入 的 词法 记号 。 根 据 表 


自 


DN， 


实现 语法 错误 


言 息 输出 的 相关 代码 如 下 : 


2 
3 
4 


{ 
5 


NO 


‘Om 


10 
11 


12 


A/* 
语法 错误 类 型 


*/ 
enum SynError 


TYPE_LOST, 


TYPE_WRONG, 
ID_LOST, 


ID_WRONG, 
NUM_LOST, 


NUM_WRONG, 
LITERAL_LOST, 


LITERAL WRONG, 


// 类 型 


/ /标志 符 


/ /数组 长 度 


/ /常量 


13 COMMA_LOST, 
14 COMMA_WRONG, 
15 SEMICON_LOST, 
16 SEMICON_WRONG, 
17 ASSIGN_LOST, 
18 ASSIGN_WRONG, 
19 COLON_LOST, 
20 COLON_WRONG, 
21 WHILE_LOST, 
22 WHILE_WRONG， 
23 LPAREN_LOST, 
24 LPAREN_WRONG, 
25 RPAREN_LOST, 
26 RPAREN_WRONG, 
27 LBRACK_LOST, 
28 LBRACK_WRONG, 
29 RBRACK_LOST, 
30 RBRACK_WRONG, 
31 LBRACE_LOST, 
32 LBRACE_WRONG, 
33 RBRACE_LOST, 
34 RBRACE_WRONG 
35 }; 

36 /* 


37 打印 语法 错误 
38 */ 
39 void Error::synError 


(int code,Token*t){ 
40 static const char *synErrorTable[]= 


41 { 
42 "类 型 
mm 

更 
43 "标识 符 
mm 

了 
44 "数组 长 度 
TT 

了 
45 "常量 
TT 

了 
46 "逗号 
TT 

了 
47 TAN 已 

Li 

了 
48 1 一 0 7 
49 "冒号 
TT 

了 
50 "while", 
51 mh 1 
52 mh ( 1 2 
53 mh nm 
54 mh nm 


// 豆 号 


/ /分 号 


//while 
//( 
//) 
//[ 
//] 
//{ 
//} 


56 "}" 


57 }; 
58 errorNum++， 
59 if(code%2==0) //lost 
60 printf("%s< 第 
%d 行 
> 语法 错误 

六 

%S 之 前 丢失 

%s .\Nn" 
61 ,Scanner->getFile(),scanner->getLine() 
62 ;t= 
tostring().c_str(),synErrorTable[code/2]); 
63 else //wrong 
64 printf("%s< 第 


%d 行 
> 语法 错误 
; 在 


%S 处 没有 正确 匹配 


%S ,Any" 

65 ,Scanner->getFile(),scanner->getLine() 

66 ,t->tostring().c_str(),synErrorTable[code/2]); 
67 } 


68 #define SYNERROR 


(code,t) Error::synError(code,t) 


第 1~35 行 使 用 枚 举 类 型 SynError 记 录 了 所 有 语法 错误 的 类 型 。 


第 36~67 行 定义 输出 语法 错误 信息 的 函数 synError， 其 中 数组 


synErrorTable 保 存 了 与 语法 错误 类 型 对 应 的 从 号 类 型 信息 。 第 58 行 使 用 
变量 errorNum 记 采编 译 过 程 中 产生 的 错误 数 。 第 59~66 行 调用 了 扫 摘 器 
的 方法 以 获取 词法 错误 所 在 的 文件 名 和 行 号 ， 


析 需 当前 读 入 的 词法 记号 look。 


第 68 行 使 用 宏 SYNERROR 封 装 了 synError 函 数 的 调用 。 


其 中 参数 GD 永 了 语法 分 


至 此 ， 我 们 介绍 了 语法 分 析 胡 的 所 有 实现 细 市 。 接 下 来 是 在 北 归 
下 降 子 程序 内 插入 基于 语法 制导 的 语义 动作 代码 ， 包 括 符号 表 管 理 、 
语义 分 析 和 代码 生成 。 


3.3 ”人 符 与 表 管 理 


符号 表 内 记录 了 编译 过 程 中 产生 的 关键 信息 ， 我 们 通过 在 语法 分 
析 程 序 插入 符 豆 表 管 理 代 码 ， 进 行 变 量 信息 管理 、 函 数 信 息 管 理 、 作 
用 域 管 理 等 工作 。 


如 图 3-18 所 示 ， 符 号 表 管 理 、 语 义 分 析 和 代码 生成 没有 绝对 的 先 
后 关系 。 语 法 分 析 中 产生 的 语义 动作 除了 更 新 符号 表 信 息 ， 也 需要 进 
行 代码 生成 的 工作 。 在 符号 表 信 息 更 新 和 代码 生成 过 程 中 ， 语 义 分 析 
需要 检查 代码 语义 信息 的 正确 性 。 而 语义 分 析 和 代码 生成 则 需要 从 符 
号 表 内 起 取 所 需 的 信息 ， 进 行 相关 的 语义 检查 和 代码 的 翻译 。 代 码 生 
成 阶段 ， 产 生 的 临时 变量 也 需要 保存 到 符号 表 。 


语法 模块 


代码 生成 


各 3-18 ”语义 动作 相关 模块 


3.3.1 ”符号 表 数 据 结构 


根据 已 设计 的 目 定 义 语 言 特性 ， 变 量 、 函 数 和 字符 串 间 量 的 信息 
是 关键 的 符号 信息 。 另 外 ， 由 于 允许 在 不 同 的 作用 域 定义 、 使 用 相同 
的 符号 名 ， 因 此 需要 在 变量 符号 内 保存 作用 域 的 信息 以 区 分 同名 的 变 
量 。 符 号 表 内 最 终 需 要 记录 的 信息 包 仿 变量、 函数、 字符 串 和 常量 和 作 
用 域 信息 等 。 使 用 按 名 访问 的 方式 有 利于 符号 信息 的 查询 ， 因 此 获 列 
表 十 实现 符号 表 数 据 结构 的 较 好 选择 。 


如 图 3-19 所 示 ， 符 号 表 内 你 存 了 三 个 重要 的 数据 结构 ， 变 量 表 、 力 
数 表 和 串 表 。 变 量 表 使 用 散 列 表 实 现 ， 保 存 了 变量 名 与 同名 变量 列表 
的 映射 ， 变 量 列表 内 保存 了 变量 对 象 。 图 中 展示 了 三 个 名 字 为 var1 的 变 
量 对 象 ， 它 们 的 作用 域 路 径 分 别 是 “</0”、“/0/1”、“/0/2/3”， 类 型 分 别 
为 “int”*、“char”、“int*”。 辑 数 表 也 使 用 散 列 表 实 现 ， 保 存 了 函数 名 与 
函数 对 象 的 映射 。 图 中 展示 了 名 为 fun1l 的 函数 对 象 ， 它 的 返回 类 型 
是 “int”， 参 数列 表 保存 在 args 字 段 内 。 串 表 使 用 链表 实现 ， 保 存 了 程序 
中 定义 的 字符 串 和 常量 。 图 中 展示 了 两 个 字符 串 常 量 *Hello” 和 “9%d”。 


图 3-19 ”符号 表 结 构 


符号 表 相 关 数 据 结构 的 部 分 实现 代码 如 下 : 


1 /* 

2 符号 表 

3 */ 

4 class SymTab 

t{ 

5 struct string_hash{ 

/V/hash 本 数 

6 size_t operator()(const string& str) const{ 

7 return __st] hash_string(str.c_str()); 

8 } 

9 }; . 

10 hash_map<string,vector<Var*>*, string_hash> VarTab ; / /变量 表 
11 hash_map<string,Var*,string_hash> strTab; / /字符 串 常量 表 


12 hash_map<string,Fun*,string_hash> funTab; // 画 数 表 


13 Fun*curFun; // 当 
前 分 析 的 函数 


14 int ScopeId ; // 作 
域 编号 

15 vector<int>scopePath; // 作 用 域 路 径 
16 }; 

17 /* 

18 ”变量 

19 */ 

20 class Var 

{ 

21 bool literal; // 是 

否 是 常量 

22 vector<int>scopePath; // 作 用 域 路 径 
23 bool externed; // 是 
二 

eXtern 声 明 

24 Tag type; // 变 
量 类 型 

25 string name， // 变 
量 名 称 

26 bool isptr; // 是 
否 是 指针 

27 bool isArray; // 是 

否 是 数组 

28 int arraySize; // 数 

组 长 度 

29 bool isLeft; // 是 

否 可 以 作为 左 值 

30 Var* initData; // 初 
值 数据 

31 bool inited; // 是 


否 初始 化 


32 
//int、 


Char 初 值 


初 什 


3 
下 
及 


37 


量 的 栈 帧 偏 移 


41 } 
7 


47 


否 


eXtern 声 明 


51 
的 最 大 深度 


52 
前 栈 指针 位 置 


53 


uniont 


int intVal; 
char charVal ， 
}; 


string strVal,; 


string ptrVal， 


Var*ptr; 


int size; 


int offset ， 


Fun 


bool externed; 


Tag type; 


string name; 


vector<Var*>paraVar; 


int maxDepth ， 


int curEsp; 


vector<int>scopeEsp; 


// 是 


// 返 


// 当 


// 作 用 域 栈 指针 


54 Vector<InterInst*> interCcode / /目标 代 码 
55 InterInst* returnpoint; // 返 
可 点 

56 } 


第 1~16 行 描述 了 符号 表 SymTab 数 据 结构 内 的 关键 字段 。 


第 5~9 行 定义 了 字符 串 的 hash 函 数 对 象 string_hash， 用 于 将 字符 串 
转化 为 一 个 无 符号 整数 值 。 


第 10~12 行 定义 了 变量 表 varTab、 字 人 符 串 常量 表 strTab 和 函数 表 
funTab ° 


第 13 行 curFun 记 有 杂 当 前 分 析 的 函数 。 


第 14~15 行 中 ，scopeld 记 录 作 用 域 的 唯一 编号 ，scopePath 记 录 从 全 
局 作用 域 到 当前 作用 域 的 路 径 。 变 量 表 由 散 列 表 实现 ， 元 素 类 型 为 
vector， 记 录 了 同名 变量 对 应 的 Var 对 象 指针 。 根 据 C 语 言 定义 ， 不 同 作 
用 域内 是 允许 出 现 同 名 变量 的 ， 而 且 内 部 作用 域 将 覆盖 外 部 作用 域 的 
同名 变量 。 因 此 ， 必 须 使 用 作用 域 路 径 区 分 不 同 作用 域 的 同名 变量 。 


第 17~41 行 朱 述 了 变量 数据 结构 的 关键 字段 。 


字段 literal 表 示 Var 对 象 是 否 是 销量， 递归 下 降 子 程序 literal 识 别名 
量 时 创建 的 Var 对 象 的 literal 字 段 总 为 tue， 其 他 情况 该 字段 为 false。 


全 
中 


字段 scopePath 记 录 了 变量 声明 或 定义 时 所 在 的 作用 域 路 径 ， 同 名 
变量 通过 该 作用 域 字段 区 分 自己 的 作用 范围 。 


第 23~25 行 定义 的 字段 externed、type 和 name 分 别 表示 变量 是 否 是 


extern 声 明 形 式 、 类 型 和 变量 名 基本 信息 。 


第 26~28 行 中 ， 字 段 isPtr 表 示 变 量 是 否 是 指针 类 型 。 字 段 isArray 表 
示 变 量 是 否 是 数组 类 型 ， 如 果 isArray 为 tue， 字 段 arraySize 表 示 数 组 的 
大 小 。 


字段 isLeft 用 于 表示 变量 是 否 可 以 作为 左 值 ， 即 钙 否 允许 被 其 他 表 
达 式 赋值 或 者 被 取 地 址 等 ， 用 于 表达 式 语义 的 检查 。 


字段 initData 记 录 了 变量 定义 时 的 初始 化 表达 式 的 结果 变量 。 


第 32~35 行 的 匿名 联合 记录 了 int 和 char 类 型 变量 的 初 值 。 


字段 strval 记 录 了 字符 串 常量 的 内 容 。 
字段 ptrval 记 录 了 字符 指针 的 初 值 ， 即 初始 化 字符 串 常量 的 名 称 。 


字段 ptr 记 有 杂 了 指 癌 当 前 变量 的 指针 变量 。 例 如 指针 运算 *p 的 结 
变量 为 (t， 则 变量 t 的 Var 对 象 的 ptr 字 上段 指向 变量 p 的 Var 对 象 。 


字段 size 记 采 变 量 的 大 小 ， 单 位 为 子 广 。 


字段 offset 记 孙 局 部 变量 或 参数 变量 相对 于 栈 帧 基 址 的 偏 移 量 ， 如 


条 变 量 是 全 局 变量 ， 该 字段 为 0。 


第 42~56 行 接 述 了 函数 数据 结构 的 天 键 子 段 。 


第 47~49 行 中 ， 字 上段 extemed、type 和 和 name 分 别 表 示 函 数 是 否 使 用 
extern 声 明 、 返 回 类 型 和 函数 名 。 


字段 paraVar 记 录 了 函数 形式 参数 变量 列表 。 


字段 maxDepth 记 杂 了 函数 栈 帧 的 最 大 值 ， 即 需要 开辟 的 栈 帧 大 


小 。 


字段 curEsp 记 隶 了 当前 栈 指 针 的 位 置 ， 即 当前 栈 巾 的 大 小 ， 初 值 为 
栈 帧 基 址 的 位 置 。 


字段 scopeEsp 动 态 记 杂 每 个 作用 域 的 大 小 。 进 入 作用 域 时 ， 设 害 
scopeEsp[ 初 值 为 0。 离 开 作用 域 时 ， 将 curEsp 减 去 scopeEsp[i 恢 复 到 进 
入 作用 域 之 前 的 栈 帧 大 小 。 


字段 interCode 记 录 生 成 的 目标 代码 。 


字段 returmmPoint 记 孙 函 数 返 回 时 需要 跳 转 到 的 函数 退出 代码 位 置 。 


3.3.2 ”作用 域 管 理 


对 代码 作用 域 的 管理 是 为 了 区 分 不 同 作 用 域 的 同名 变量 
定局 部 变量 相对 于 栈 帧 基 址 的 侦 移 。 


， 以 及 确 
在 C 语 言 中 ， 作 用 域 具有 以 下 特点 。 
1) 一 般 使 用 花 括 弧 对 “{}” 表 示 一 个 作用 域 。 
2) 作用 域 允 许 藤 套 。 
3) 作用 域内 声明 的 变量 在 作用 域外 不 可 见 。 
4) 对 于 内 套 作 用 域 ， 外 部 作用 域 声 明 的 变量 在 内 部 作用 域 可 见 。 
5) 内 部 作用 域 声 明 的 变量 可 以 覆盖 外 部 作用 域 声 明 的 同名 变量 。 


一 般 情 况 下 ， 很 少 使 用 花 括 弧 对 “{}” 直 接 定义 代码 作用 域 ， 而 是 
使 用 常用 的 复合 语句 ， 例 如 while 循 环 、if-else 条 件 语句 等 定义 代码 作 
用 城 。 


while(condition) 


statements 


比如 while 循 环 语句 ， 虽 然 condition 表 达 式 不 在 花 括 弧 对 内 部 ， 但 
仍 属于 while 循 环 的 作用 域 ， 即 与 statements 在 一 个 作用 域内 。 这 是 因 
为 ， 对 while 循 环 语句 来 说 ， 其 内 部 只 ， 循 环 

条 件 部 分 可 以 直接 与 循环 体 合 并 。 类 似 的 情况 还 有 if 语 句 、else 语 句 、 
for 循 环 语句 等 。 不 过 有 一 个 语句 例外 ， 残 定 do-while 循 环 语句 。 


do 
statements 


while(condition); 


如 果 在 do-while 循 环 内 将 statements 和 condition 看 作 一 个 作用 域 
内 ， 那 么 对 于 condition 表 达 式 来 说 ，statements 声 明 的 变量 便 可 以 在 
condition 内 可 见 ， 这 违反 了 作用 域 的 基本 特性 。 因 此 ，condition 表 达 
式 应 该 属于 do-while 循 环 的 外 层 作 用 域 。 


符号 表 提供 了 两 个 基本 操作 用 于 作用 域 的 管理 。 


1 
2 进入 局 部 作用 域 


3 */ 

4 void SymTab: :enter 

() 

5 芋 

6 scopeId++; 

7 scopePath.push_back(scopeId); 

8 if(curFun)curFun->enterScope(); 
9 } 

10 

11 /* 


12 ”离开 局 部 作用 域 


13 */ 
14 void SymTab: :leave 


16 SCcopePath.pop_back()， 
7 if(curFun)curFun->leaveScope(); 


作用 域 管理 的 思想 很 简单 ， 由 于 作用 域 文 持 符 套 结 构 ， 使 用 栈 描 
述 作 用 域 的 动态 变化 最 为 合适 。 代 码 中 scopePath 保 存 了 当前 作用 域 的 
舱 套 结构 ， 其 内 部 元 素 是 每 个 作用 域 的 编号 ， 我 们 为 每 个 作用 域 分 配 
一 个 唯一 的 编号 ， 存 放 在 符号 表 的 scopeId 字 段 。 


使 用 enter 函 数 进入 一 个 新 的 作用 域 ， 并 改变 scopeId， 表 示 当 前 作 
用 域 的 编号 。scopeld 初 值 为 0%， 表 示 全 局 作用 域 。 然 后 将 作用 域 编号 
放 入 栈 中 ， 这 样 scopePath 反 映 的 作用 域 租 套 结构 正好 是 全 局 作用 域 到 
当前 作用 域 的 路 径 。 在 当前 作用 域 声 明 的 变量 都 会 保存 这 个 作用 域 路 
人 径 ， 用 于 区 分 不 同 作用 域 下 的 同名 变量 


使 用 leave 函 数 离 开 作 用 域 ， 只 需要 将 scopePath 栈 顶 元 素 出 栈 即 
可 ， 这 样 scopePath 便 恢复 到 进入 这 个 作用 域 前 的 状态 ， 即 上 级 作用 域 
的 路 径 。 


在 语法 分 析 的 递归 下 降 子 程序 中 ， 通 过 插入 作用 域 管 理 的 代码 完 
成 相应 的 语义 动作 。 例 如 while 循 环 的 递归 下 降 子 程序 插入 作用 域 管理 
代码 后 形式 如 下 : 


1 void Parser: :whilestat 


() 
2 1{ 


3 Symtab ,enter 


4 match(KwW_WHILE) ， 

5 if(!match(LPAREN) ) 

6 recovery(EXPR_FIRST||F(RPAREN) 

7 ; LPAREN_LOST, LPAREN_WRONG ) ， 

8 altexpr(); 

9 if(!match (RPAREN)) 

10 recovery(F(LBRACE),RPAREN_LOST, RPAREN_WRONG); 
11 block(); 

12 symtab.leave 


这 样 ， 在 代码 第 3~12 行 之 间 产 生 的 变量 都 是 属于 while 循 环 作用 域 
的 。 类 似 的 ，do-while 循 环 插 入 作用 域 管 理 代码 后 形式 如 下 : 


过 


1 void Parser::dowhilestat() 


2 

3 symtab.enter 

(); 

4 match(Kw_DO); 

5 block( ); 

6 if(!match(KW_WHILE) ) 

7 recovery(F(LPAREN) ,WHILE_LOST, WHILE_WRONG ) ; 

8 if(!match(LPAREN) ) 

9 recovery(EXPR_FIRST||F(RPAREN) 

10 ; LPAREN_LOST, LPAREN_WRONG ) ， 

11 symtab. leave 

(); 

12 altexpr(); 

13 if(!match(RPAREN)) 

14 recovery(F(SEMICON),RPAREN_LOST, RPAREN_ WRONG); 
15 if(!match(SEMICON)) 

16 recovery (TYPE_FIRST| |STATEMENT_FIRST | |F(RBRACE) 
17 /SEMICON_LOST, SEMICON_WRONG ) ， 

18 } 


可 以 看 出 ， 作 用 域 管 理 代 码 仅 仅 作 用 于 代码 第 3~11 行 之 间 ， 第 12 
行 后 的 表达 式 代 码 并 不 在 do-while 的 内 部 作用 域内 ， 而 是 处 于 上 级 作 
用 域 的 范围 。 


函数 定义 和 声明 的 作用 域 管理 有 一 点 特别 ， 它 与 while 循 环 的 作用 
域 管理 类 似 。 我 们 为 非 终结 符 <idtail> 定 义 的 产生 式 为 : 


<idtail>-><varrdef><deflist> | LPAREN <para> RPAREN <funtail> 


对 应 的 递归 下 降 子 程序 插入 作用 域 管理 代码 后 形式 为 : 


1 void Parser::idtail() 

2 

3 if(match(LPAREN)){ 

4 symtab.enter 

(); 

5 para( ); 

6 if(!match(RPAREN)) 

7 recovery(F(LBRACK)_(SEMICON) 
8 ; RPAREN_LOST, RPAREN_WRONG ) 
9 funtail( ); 

10 symtab.leave 

() 

11 } 

12 elsef{ 

13 varrdef(); 

14 deflist(); 

15 } 

16 } 


函数 的 参数 变量 属于 函数 内 部 作用 域 ， 为 了 将 函数 的 参数 变量 包 
含 到 函数 作用 域内 部 ， 我 们 将 作用 域 管理 代码 搬入 para 和 funtail 前 后 。 
这 样 做 的 结果 是 ， 无 论 是 函数 声明 还 是 函数 定义 部会 产生 新 的 作用 
域 ， 不 过 这 并 不 影响 作用 域 的 管理 。 


如 图 3-20 所 示 的 代码 ， 为 了 简便 起 见 ， 这 里 只 保留 了 变量 的 声明 
信息 。 按 照 上 述 变 量 作用 域 的 管理 方式 ， 示 例 代码 会 产生 4 个 代码 作用 
域 : 全 局 作用 域 (编号 0) 、main 函 数 作用 域 (编号 1) 、fun 函 数 作用 


域 (编号 2) 和 if 语 句 作用 域 (编号 3) 。 符 号 表 初 始 化 时 ， 将 0 号 作用 
域 入 栈 ， 进 入 main 函 数 时 将 1 号 作用 域 入 栈 ， 得 到 main 函 数 作用 域 路 
径 “%0/1”。 当 离开 main 函 数 时 ，1 号 作用 域 出 栈 ， 作 用 域 路 径 恢复 

为 "/0”。 接 着 进入 fun 函 数 作用 域 时 ， 作 用 域 路 径 变 为 "0/2”， 再 进入 让 
语句 作用 域 时 ， 作 用 域 路 径 变 为 "0/2/3”。 这 样 在 全 局 作用 域 、main 画 
数 作用 域 和 fun 函 数 的 放 语 句 作 用 域内 定义 的 同名 变量 var1 拥 有 不 同 的 
作用 域 路 径 %/0”"、“/0/1” 和 “10/2/3”， 完 成 了 不 同 作用 域 同名 变量 的 区 


代码 与 作用 域 变量 
mt varl 
in+ main(j{ /0/1 varl:/0/1 
ee O10 Jverl/0/l | 
) 


int fun(){ /0/2 
if(xX /0/2/3 |varl:/0/2/3 
Oo 12/3 |vort/0/2/3 
} 


图 3-20 ”变量 作用 域 路 径 


前 面 讲 到 ， 作 用 域 管理 除了 区 分 同名 变量 ， 还 具有 计算 局 部 变量 
相对 于 栈 帧 基 址 的 侦 移 的 作用 。 而 在 符号 表 的 enter 和 和 leave 函数 内 分 吸 


沽 


调用 了 Fun 对 象 的 enterScope 和 leaveScope 的 函数 正 是 完成 了 局 部 变量 
栈 帧 内 偏 移 的 计算 。 


1 /* 

2 进入 一 个 新 的 作用 域 

3 */ 

4 void Fun::enterscope 

() 

5 芋 

6 scopeEsp.push_back(0); 
7 } 

8 

9 /* 

0 离开 当前 作用 域 

11 */ 

12 void Fun: :leaveScope 

() 

13 { 

14 maxDepth=(curEsp>maxDepth)?curEsp:maxDepth; 
15 curEsp-=scopeEsp.back( ); 
16 scopeEsp.pop_back(); 
17 } 


与 使 用 scopePath 记 录 作 用 域 路 径 类 似 ，scopeEsp 动 态 保存 了 每 个 
作用 域 的 大 小 ， 且 按照 作用 域 的 能 套 层次 进行 管理 。 


每 次 进入 新 的 作用 域 时 ， 作 用 域 的 大 小 为 0，scopeEsp 将 0 入 栈 。 
此 后 凡是 在 作用 域内 定义 了 新 的 变量 ， 则 将 该 变量 大 小 素 加 到 当前 作 
用 域 的 大 小 ， 同 时 curEsp 也 要 素 加 变量 的 大 小 。 这 样 scopeEsp 内 总 坪 
保存 着 当前 所 有 作用 域 的 实际 大 小 ， 而 curEsp 一 直 反 映 栈 帧 的 深度 。 


每 次 离开 作用 域 寺 ， 首 先 计算 栈 帧 的 最 大 深度 ， 然 后 将 curEsp 减 
去 当前 作用 域 的 大 小 〈 栈 顶 元 素 ) ， 恢 复 到 进入 作用 域 前 栈 帧 深度 ， 


最 后 将 当前 作用 域 的 大 小 从 栈 内 弹出 。 


如 图 3-21 所 示 ， 继 续 前 面 的 代码 示例 。 变 量 的 栈 帧 内 偏 移 仅 局 限 
于 函数 内 部 ， 因 此 全 局 变量 不 需要 考虑 这 个 问题 。 在 main 芳 数 内 ， 作 
用 域 大 小 为 4， 栈 帧 最 大 深度 为 4。 进入 fun 画 数 作 用 域 时 ，scopeEsp 内 
压 入 00， 然后 进入 f 语 句 作 用 域 ， 继 续 压 入 0，scopeEsp 内 保存 的 作用 域 
大 小 为 “0-0”。 当 定义 变量 varl 后 ，if 语 句 作 用 域 大 小 增加 
为 “0-4?，curEsp 增 为 4。 当 离开 让 语句 作用 域 后 ，curEsp 减 去 计 语句 作用 
域 大 小 4， 变 为 0， 同 时 scopeEsp 弹 出 栈 顶 元 素 ， 恢 复 为 "0”。 这 样 ， 
curEsp 总 是 保存 局 部 变量 相对 于 栈 帧 基 址 的 偏 移 。 


，ScopeEsp 变 


wi i 


3-21 ”变量 栈 帧 内 侦 移 


3.3.3 ”变量 管理 


变量 管理 涉及 变量 对 象 的 创建 、 将 变量 对 象 添 加 到 变量 表 varTab 
和 从 变量 表 varTab 取 出 变量 对 象 。 这 些 操作 并 不 是 简单 地 对 数据 
结构 的 增 、 删 、 改 、 查 ， 变 量 对 象 创建 时 需要 考虑 初始 化 的 不 同情 
况 ， 增 加 变量 对 象 时 需要 检查 变量 的 声明 合法 性 ， 获 取 变 量 对 象 时 需 


要 检查 变量 引用 的 合法 性 等 。 


1. 创 建 变量 对 象 


变量 对 象 的 来 源 有 三 种 ， 编 译 占 对 不 同 来 源 的 变量 处 理 不 同 。 


1) 在 源 程序 内 显 式 声 明 变 量 。 比 如 “extern int var; ”或 “int 
变量 名 是 程序 内 显 式 指 定 的 标识 符 ID， 包 括 全 
本 


2) 源 程序 内 定义 的 常量 。 作 为 表达 式 运 算 的 基本 单位 ， 常 量 被 看 
作 特 殊 的 变量 ， 这 类 变量 只 有 值 而 没有 显 式 的 名 子 ， 编 译 右 需要 为 之 


8 定 一 个 名 字 。 
) 表达 式 运 算 的 临时 结果 变量 。 比 如 表达 式 “atbtc”， 按 照 加 法 

运算 符 的 结合 性 ， 子 表达 式 “atb” 优 先 计算 ， 结 果 需 要 保存 到 | 临时 变 

量 ， 临 时 变量 也 没有 显 式 的 名 称 ， 需 要 编译 器 指定 唯一 的 名 字 。 


在 目 定义 语言 文法 定义 中 ， 使 用 非 终结 符 <defdata> 表 示 一 个 完整 
的 全 局 变量 或 局 部 变量 的 形式 ， 包 括 声明 、 定 义 和 初 始 化 。 使 用 非 终 


结 符 组 合 “<type><paradata>” 表 示 一 个 完整 的 形式 参数 变量 的 形式 。 


非 终结 符 <defdata> 的 递归 下 降 子 程序 的 实现 如 下 : 


1 Var* Parser: :defdata 


(bool ext,Tag 七 ){ 

2 String name=""”， 

3 if(F(ID)){ 

4 name=(((Id*)look)->name); 
5 move( ) ， 

6 return varrdef 


(extyvt,falsername ) ， 
7 


8 else if(match(MUL))E 

9 if(F(ID)){ 

10 name=(((Id*)look)->name); 

11 move( ); 

12 

13 else 

14 recovery(F(SEMICON)_ (COMMA)_(ASSIGN) 
15 , ID_LOST, ID_WRONG ) ; 

16 return init 


(ext, t,true,name); 


17 

18 elsef{ 

19 recovery(F(SEMICON) (COMMA)_(ASSIGN)_(LBRACK) 
20 , ID_LOST, ID_WRONG); 

21 return varrdef 


(ext,t,false, nanme); 

22 

23 } 

24 Var* Parser::varrdef 


(bool ext,Tag t,bool ptr,string name){ 


25 if(match(LBRACK) ){ 

26 Int len=0; 

27 if(F(NUM) ){ 

28 len=( (Num*)look)->val; 

29 move( ); 

30 } 

31 else 

32 recovery (F(RBRACK), NUM_LOST, NUM_WRONG); 
33 if(!match(RBRACK) ) 

34 recovery(F(COMMA)_(SEMICON) 

35 ; RBRACK_LOST, RBRACK_WRONG ); 
36 return new Var(symtab.getScopePath() 


37 ,ext,t,name, len); 


/ /新 的 数组 


38 } 
39 else 
40 return init 


(ext,t,ptr,name); 
41 } 
42 Var* Parser::init 


(bool ext,Tag t,bool ptr,string name){ 


43 Var* initVal=NULL; 

44 if(match(ASSIGN) ){ 

45 initVal=expr(); 

46 

47 return new Var(symtab.getScopePath() 

48 ,ext,t,ptr,name,initVal); 
// 新 的 变量 或 者 指针 

49 } 


回顾 前 面 对 <defdata> 文 法 的 定义 。 


<defdata>->ID <varrdef> | MUL ID <init> 
<varrdef>->LBRACK NUM RBRACK | <init> 
<init>->ASSIGN <expr> | * 


虽然 <defdata> 表 达 了 所 有 显 式 声明 变量 的 形式 ， 但 是 非 终结 符 
<varrdef> 和 <init> 才 最 终 确 定 了 变量 的 形式 。 前 者 用 于 确定 是 变量 还 是 
数组 ， 后 者 确定 变量 或 指针 的 初始 化 部 分 (我 们 定义 的 文法 不 允许 数 
组 的 初始 化 ) 。 


子 程序 defdata 的 参数 ext 用 来 表示 被 分 析 的 变量 是 否 由 extern 声 
明 ， 参 数 t 用 来 表示 变量 的 类 型 。 这 两 个 参数 由 调用 defdata 的 子 程序 传 
弟 。 而 defdata 则 将 这 些 变量 信息 传递 给 子 程 序 varrdef 和 init， 当 它们 获 


得 了 变量 的 所 有 信息 后 ， 就 创建 新 的 变量 对 象 Var， 


信息 复制 到 Var 对 象 的 对 应 字段 内 。 


对 于 常量 ， 创 建 


变量 对 象 的 方式 较为 简单 


1 Var::Var(Token*1t){ 

2 clear(); 

3 literal=true; 

4 setLeft(false); 

5 Switch(Jt->tag){ 

6 case NUM: 

7 setType(KW_INT); 

8 name="<int>"， 

9 intVal=( (Num*)1t)->val,; 
10 break; 

11 case CH: 

12 setType(KW_CHAR); 

13 name="<char>"，; 

14 intVal=0; 

0 

15 charVval=( (Char*)1t)->ch; 
16 break; 

17 case STR: 

18 setType(KW_CHAR); 

19 name=GenCode: :genLb( ); 
20 strval=((Str*)1t)->str; 
21 setArray(strVal.size( )+1); 
22 break; 

23 


并 将 收集 到 的 变量 


/ /常量 标记 


/ /不 能 作为 左 值 


/ /类 型 作为 名 字 


/ /记录 数字 数值 


/ /类 型 作为 名 字 


/ /高 位 置 


/ /记录 字符 值 


/7 产生 一 个 新 的 名 字 


/ /记录 字符 串 值 


/ /字符 串 作为 字符 数组 存储 


在 词法 分 析 器 中 ， 营 量 的 所 有 信息 部 保存 在 Token 对 象 内 ， 因 此 可 
以 直接 从 Token 对 象 创 建 对 应 的 变量 对 象 。 我 们 为 所 有 的 整数 或 字符 党 
量 设 定 了 同一 个 名 字 “<int>” 或 “<char>”， 这 样 在 符号 表 数 据 结构 的 变 
量 表 内 ， 它 们 被 保存 在 键 值 为 “<int>” 或 “<<char>” 的 同名 链表 内 。 因 为 
不 会 存在 对 常量 的 按 名 访问 ， 这 样 做 无 可 厚 非 。 但 是 对 于 字符 串 常 量 
而 言 ， 就 需要 为 每 个 字符 串 分 配 一 个 唯一 的 名 字 ， 这 是 因为 后 面 代码 
生成 时 需要 根据 这 个 名 字 确 定子 符 串 的 起 始 地 址 。 代 码 生 成 医 中 ， 使 
用 genLb 函 数 为 字符 串 生 成 一 个 唯一 的 名 子 。 


存放 表达 式 结 采 的 临时 变量 与 表达 式 的 代码 生成 天 系 很 大 ， 在 后 


会 详细 描述 。 
2. 添 加 变量 对 象 


经 过 defdata、paradata、literal 等 子 程序 创建 了 变量 对 象 后 ， 符 号 
表 类 SymTab 提 供 的 addVar 画 数 将 新 创建 的 变量 对 象 添加 到 变量 表 


varTab 中 。 


1 void SymTab::addVar 
(Var* var)t{ 
2 


if(varTab.find(var->getName())==varTab.end())t{ 
varTab[var->getName()]=new Vector<Var*>， / /创建 链表 


4 varTab[var->getName()]->push_back(var); / /添加 变量 


} 
elsef{ 
vector<Var*>&list=*varTab[var->getName()]; // 同 名 变量 列表 


NAO 


8 int 工 
9 for(i=0;i<list.size();i++) / /判断 3 
作 


六 
吨 


10 if(list[i]->getPath().back()==var->getPath().back()) 
11 break; 

12 if(i==list.size()||var->getName()[90]=='<') / /排除 常量 
13 list.push_back(var); 

14 elsef 

15 SEMERROR(VAR_RE_DEF, var ->getName( )); / /变量 重 定 
义 

16 delete Var ， 

17 return 

18 } 

19 } 

20 if(ir){ 

21 int flag=ir->genVarInit 

(var); / /变量 初始 化 语句 

22 if(curFun&&flag)curFun->locate 

(var); / /计算 局 部 变量 栈 帧 偏 移 

23 } 

24 } 


第 2~5 行 处 理 变量 表 varTab 内 不 存在 添加 变量 var 名 称 的 同名 变量 
列表 时 的 情况 。 首 先 创 建 同 名 变量 列表 ， 添 加 到 变量 表 ， 然 后 将 var 添 
加 到 同名 变量 列表 内 。 


第 6~19 行 处 理 同名 变量 列表 存在 时 的 情况 ， 此 时 需要 判断 变量 作 
用 域 的 合法 性 ， 即 不 允许 同一 个 作用 域 下 出 现 同名 的 变量 。 


第 7 行 获 取 同 名 变量 列表 list 。 


第 9~11 行 遍历 list， 并 将 list 内 保存 的 变量 对 象 的 作用 域 路 径 与 var 
的 作用 域 路 径 进行 匹配 。 我 们 知道 ， 作 用 域 路 径 表 示 全 局 作用 域 到 当 


前 作用 域 的 路 径 ， 而 每 个 作用 域 分 配 了 唯一 的 编写， 因此 通过 比较 作 
用 域 最 后 一 个 元 素 便 可 以 确定 作用 域 路 径 是 否 相同 。 循 环 退 出 时 ， 如 
果 索 引 i 不 等 于 同名 列表 的 长 度 ， 则 表示 出 现 了 相同 作用 域 的 同名 变 


量 ， 需 要 报告 语义 错误 。 


第 12~13 行 表示 不 存在 同 作用 域 的 同名 变量 ， 将 变量 添加 到 同名 
变量 列表 。 前 面 提 到 整数 和 字符 常量 都 保存 在 “<int>" 和 “<char>” 同 名 
变量 列表 内 ， 且 作用 域 都 为 空 ， 因 此 会 导致 索引 i 不 等 于 同名 列表 的 长 
度 ， 触 发 语义 错误 。 为 了 避免 这 一 点 ， 我 们 添加 了 对 变量 名 的 判断 
即 判定 名 字 的 第 一 个 字符 是 否 是 '<， 因 为 标识 符 名 称 是 不 可 能 以 < 开 


始 的 。 


第 14~17 行 处 理 变量 重 定义 语义 错误 ， 语 义 错 误 的 内 容 在 后 面 会 
详细 描述 。 


第 21 行 处 理 变量 的 初始 化 语句 。 目 定义 语言 语法 规定 全 局 变量 的 
初始 值 只 能 是 常量， 而 不 能 是 表达 式 。 而 局 部 变量 可 以 使 用 任意 合法 
的 表达 式 进 行 初始 化 ， 虽 然 它们 在 文法 形式 上 完全 相同 (都 是 由 
defdata 定 义 ) 。 在 Var 数据 结构 内 ，initData 保 存 了 表达 式 的 结果 变 
如 有 果 该 变量 是 肖 量 值 ， 则 直接 将 值 复制 到 被 初始 化 的 变量 对 象 
否则 需要 生成 赋值 语句 完成 初始 化 操作 ， 在 后 面 阐述 代码 生成 时 
对 此 进行 详细 描述 。 


? 
? 


= 
里 
内 
全 
到 


第 22 行 调用 locate 处 理 局 部 变量 的 栈 帧 偏 移 地 址 ， 代 码 如 下 : 


1 void Fun::locate 


(Var*var){ 
2 int size=var->getSize(); 
3 Size+=(4-Size%4)%4; / /按照 


4 字 节 的 大 小 整数 倍 分 配 局 部 变量 


4 scopeEsp.back()+=size; / /累加 作用 域 大 小 
5 curEsp+=size; / /累加 栈 指针 位 置 
6 var->setoffset(-curEsp); / /局 部 变量 偏 移 为 负数 
7 } 


函数 locate 首 先 获 取 变 量 的 大 小 ， 保 存 到 size 中 ， 并 将 size 按 照 4 字 
节 对 齐 。 然 后 修改 当前 作用 域 的 大 小 和 栈 指 针 的 位 置 ， 最 后 将 栈 指 针 
位 置 的 负 值 保 存 到 局 部 变量 的 栈 帧 偏 移 字段 offset 内 。 之 所 以 保存 负 
值 ， 是 因为 栈 是 从 高 字 广 到 低 字 太 增 长 的 ， 局 部 变量 的 栈 帧 偏 移 从 0 开 
始 分 配 。 关 于 函数 栈 帧 机 制 ， 在 代码 生成 章节 会 详细 描述 。 


在 将 向量 添加 到 符号 表 时 ， 需 要 考虑 符号 表 中 字符 串 毅 量 表 的 行 
为 : 


1 void SymTab: :addStr 


(Var* &v){ 
hash_map<string,Var*,string_hash>::iterator StrIt， 
strEnd=strTab.end(); 
for(strIit=strTab.begin();strIit!=strEnd;++strIt)t{ 
Var*str=strIt->second; 
if(v->getSstrVal( )==str->getStrVval())t{ 
delete v; 
v=str; / /字符 串 


和 于 oo”、~IOO 上 wmN 


变 


9 return; 


10 } 

11 } 

12 strTab[v->getName( )]=v; 
13 } 


14 Var* Parser::literal 


15 Var *v =NULL; 

16 if(F(NUM)_(STR)_(CH)){ 

7 VvV = new Var(look); 

18 if(F(STR)) 

19 symtab.addstr(v); 
常量 记录 

20 else 

21 symtab.addVar (v); 


22 move( ) ; 

23 } 

24 else 

25 recovery (RVAL_OPR, LITERAL_LOST, LITERAL_WRONG ) ， 
26 return v; 

27 } 


子 程序 literal 识 别 所 有 的 常量 ， 第 17 行 根据 常量 的 Token 对 象 创 建 


/ /字符 


// 甘 


对 象 v。 将 字符 串 稼 量 添 加 到 字符 串 各 量 表 strTab 中 ， 而 将 其 他 和 


量 
正常 添加 到 变量 表 varTab 中 。 


丝 


函数 addStr 用 于 添加 一 个 字符 串 常 量 对 象 。 第 4~5 行 轴 历 字符 串 种 
量 表 ， 将 取出 的 每 个 字符 串 常量 存 入 sr 中。 第 6 行 判断 得 添加 的 字符 串 


首 量 Vv 是 否 已 经 存在 于 字符 早 和 常量 表 strTab 中 ， 年 在 则 删除 v， 并 将 
常量 v 是 否 已 经 存在 于 字符 串 澡 量 表 strTab 中 ， 如 果 存 在 则 删除 v， 并 将 
Vv 设置 为 已 经 存在 的 字符 串 常量 str。 如 果 strTab 内 不 存在 字符 串 常量 v， 


则 将 v 添 加 到 | strlab 中 5 键 值 为 v->name o 


3. 获 取 变 量 对 象 


由 于 允许 不 同 作 用 域 的 同名 变量 覆 兰 ， 因 此 获取 一 个 变量 对 象 需 
要 提供 两 个 基本 信息 变量 名 和 变量 访问 作用 域 。 变 量 表 使 用 散 列 表 
和 同名 变量 列表 组 合 的 方式 组 织 ， 通 过 变量 名 确定 散 列 表 内 的 同名 变 
量 列表 ， 再 根据 变量 访问 作用 域 确定 具体 的 变量 对 象 。 符 号 表 提 供 
getVar 函 数 用 于 获取 变量 对 象 。 


亲 


人 


1 Var* SymTab::getVar 


(string name){ 


2 Var*select=NULL.; / /最 佳 选择 
3 if(varTab.find(name)!=varTab.end())t{ 

4 vector<Var*>&list=*varTab[name]; 

5 int pathLen=scopePath. size(); // 当 前 路 径 
长 度 

6 int maxLen=0; / /已 经 匹配 
的 最 大 长 度 

7 for(int i=0;i<list.size();i++){ 

8 int len=list[i]->getPath().size(); 

9 if(len<=pathLeng&e. 

10 list[i]->getPath()[len-1]==scopePath[len-1])t{ 

11 if(len>maxLen)t{ / /选取 最 长 匹配 
12 maxLen=len; 

13 select=]list[i]; 

14 } 

15 } 

16 } 

17 } 

18 if(!select) 

19 SEMERROR(VAR_UN_DEC, name); / /变量 未 声明 
20 return Select 

21 } 


程序 中 使 用 指针 变量 select 记 录 最 终 获 取 的 变量 对 象 ， 初 始 化 为 
NULL 。 


第 4 行 根据 变量 名 访问 散 列 表 ， 获 取 同 名 变量 列表 1list 。 


第 5~16 行 根据 当前 的 作用 域 路 径 scopePath 获 取 “ 最 近 ” 的 变量 对 
象 。 通 过 届 历 同名 变量 列表 ， 选 择 一 个 变量 ， 该 变量 的 作用 域 路 径 与 
当前 作用 域 路 径 scopePath 匹 配 度 最 高 。 


举 个 例子 来 说 ， 假 设 获取 名 为 “var 的 变量 对 象 ， 在 var 的 同名 变量 
列表 内 保存 了 四 个 变量 ， 其 作用 域 路 径 分 别 
为 %/0”、“/0/1”、“/0/21/3/4”、“/0/2”"， 当 前 作用 域 路 径 为 </0/2/5”。 按 照 
最 长 匹配 原则 ， 我 们 应 该 选择 作用 域 路 径 为 %/0/2” 的 变量 。 首 先 可 以 确 
定 待 选择 的 变量 作用 域 路 径 长 度 一 定 不 大 于 当前 作用 域 路 径 长 度 ， 比 
如 路 径 %0/2/3/4” 的 变量 在 作用 域 3 内 ， 与 作用 域 5 是 并 列 的， 变量 不 可 
见 。 然 后 考虑 待 选择 的 变量 作用 域 路 径 一 定 是 当前 作用 域 路 径 的 前 
级 ， 否 则 变量 依然 不 可 见 ， 比 如 作用 域 %/0/1”。 对 于 作用 域 路 径 %/0”， 
第 一 个 元 素 与 “%/0/2/5” 的 第 一 个 元 素 相 同 ， 因 此 路 径 匹 配 ， 匹 配 长 度 为 
1， 这 是 因为 到 达 同 一 个 作用 域 的 作用 域 子路 径 一 定 相 同 。 而 对 于 作用 
域 路 径 %/0/2*"， 第 二 个 元 素 与 %/0/2/5” 的 第 二 个 元 素 相同 ， 因 此 路 径 匹 
配 ， 匹 配 长 度 为 2。 故 而， 最 终 选 择 的 变量 的 作用 域 路 径 为 “/0/2”。 


第 9 行 判断 条 件 选 择 变量 作用 域 长 度 不 大 于 当前 作用 域 路 径 长 度 的 


人 
二 


第 10 行 判断 变量 作用 域 路 径 的 最 后 一 个 元 聚 是 否 与 当前 作用 域 路 
径 对 应 的 元 素 相 同 。 


第 11~14 行 选择 最 长 匹配 ， 将 变量 结果 保存 到 select 中 。 


第 18 行 判断 是 否 获 取 到 变量 ， 否 则 报告 变量 未 声明 语义 错误 。 


函数 getVar 的 调用 时 机 发 生 在 变量 名 被 引用 的 表达 式 中 ， 递 归 下 
降 子 程序 idexpr 中 处 理 了 变量 和 数组 的 访问 ， 此 处 便 需 要 根据 标识 符 
的 名 称 获 取 已 保存 的 变量 对 象 。 


3.3.4 ”函数 管理 


玉 数 管理 涉及 函数 对 象 的 创建 、 将 函数 对 象 添 加 到 函数 表 funTab 

和 从 画 数 表 funTab 取 出 函数 对 象 。 相 比 而 言 ， 函 数 对 象 的 创建 比 变量 

对 象 的 创建 简单 。 而 函数 对 象 的 添加 则 较为 复 洒 ， 这 古 因 为 需要 考虑 
玉 数 定义 和 函数 声明 的 不 同 。 获 取 画 数 对 象 时 ， 除 了 提供 函数 名 外 ， 
还 需要 提供 实际 参数 列表 ， 以 方便 符号 表 对 函数 参数 类 型 进行 检查 。 


1. 创 建 画 数 对 象 


无 论 是 画 数 定义 还 是 函数 声明 ， 它 们 在 文法 级 别 具 有 公共 的 首 
部 。 在 递归 下 降 子 程序 idtal 内 ， 完 全 可 以 根据 函数 的 首部 确定 函数 的 
基本 要 素 : 函数 名 、 返 回 值 类 型 和 参数 列表 。 


Kt 


五 


上 


1 void Parser: :Idtail 


ext,Tag t,bool ptr,string name ){ 


if(match(LPAREN)){ // 画 
3 
3 symtab.enter(); 
4 vector<Var*>paraList; / /参数 列表 
5 para(paraList); 
6 if(!match(RPAREN)) 
7 recovery(F(LBRACK)_(SEMICON) 
8 ; RPAREN_LOST, RPAREN_ WRONG ) 
9 Fun* fun=new Fun(ext,t,name,paraList),; 
10 funtail(fun); 
11 symtab. leave( ); 
12 


} 
13 elsef // 变 


14 symtab.addVar (varrdef(ext,t,false,name)); 


15 deflist(ext,t); 
16 

17 

18 void Parser::funtail 

(Fun*f)f{ 

19 if(match(SEMICON)){ // 画 
数 声明 

20 symtab.decFun 
(Ff); 

21 } 

22 elsef{ 

23 symtab.defFun 
(f); // 画 数 定义 

24 block(); 

25 symtab.endDefFun 
(); / /结束 画 数 定义 

26 } 

27 } 


第 9 行 创建 了 函数 对 象 ， 传 入 的 参数 ext、t、name 、paralist 分 别 表 
示范 数 是 否 声明 为 extern 形 式 、 函 数 的 返回 类 型 、 函 数 名 和 形式 参数 列 
表 。 至 于 具体 fun 了 芳 数 对 象 是 玉 数 声明 还 是 定义 ， 需 要 由 funtail 子 程序 
确定 。 


第 20 行 调用 的 decFun 函 数 用 于 将 函数 对 象 以 声明 形式 插入 函数 
表 。 


第 23 行 调用 的 defFun 函 数 用 于 将 函数 对 象 以 定义 形式 插入 函数 
表 O 


第 25 行 处 理 函 数 定 义 结束 的 工作 。 


创建 画 数 对 象 时 ， 除 了 保存 函数 的 基本 信息 外 ， 还 需要 为 参数 变 
量 计算 栈 帧 偶 移 ， 以 保证 函数 能 正常 访问 参数 变量 。 


1 Fun::Fun 

(bool ext,Tag tstring n,vector<Var*>&paraList) 
2 

3 externed=ext ， 

4 type=t， 

5 name=n， 

6 paravar=paraList 

7 curEsp=0; 

8 maxDepth=0; 

9 for(int i=0,argOoff=8;i<paraVar.size();i++,argOff+=4){ 
10 paraVar[i]->setoffset(argoff); 
11 } 


第 3~6 行 保存 了 函数 的 基本 信息 ， 第 7~8 行 将 curEsp 和 maxDepth 初 
台 化 为 0。 


第 9~10 行 计算 参数 相对 于 栈 帧 基 址 的 偏 移 ， 参 数 传递 都 是 固定 的 
4 字 廊 大小， 且 栈 帧 偏 移 都 是 正 值 ， 从 8 字 市 开始 。 在 代码 生成 中 会 评 
细 描 述 函 数 栈 帧 。 


2. 深 加 函数 对 和 象 


目 先 看 声明 函数 对 象 的 添加 ，decFun 实 现代 码 如 下 : 


1 void SymTab::decFun 
(Fun* fun)t{ 
2 


fun->setExtern(true); 
3 if(funTab.find(fun->getName())==funTab.end())t{ / /未 找到 函数 


4 funTab[fun->getName( )]=fun; / /添加 画 数 


5 } 
6 elsef{ 
7 


Fun* last=funTab[fun->getName()]; // 获 取 已 经 保存 的 
函数 对 象 
8 if(!last->match 
(fun) ){ 
9 SEMERROR(FUN_DEC_ERR, fun->getName())， // 画 数 声明 冲突 
10 } 
11 delete fun; 
12 } 
13 } 


首先 ， 第 2 行将 函数 对 象 fun 的 externed 字 上 段 设 为 trtue， 表 示 一 个 函 
数 再 明 。 


第 3~5 行 在 函数 表 funTab 中 查找 同名 的 函数 对 象 ， 如 果 不 存在 ， 则 
表示 第 一 次 声明 函数 ， 将 该 函数 择 入 funTab 中 。 


第 6~12 行 处 理 函 数 表 funTab 时 ， 若 funTab 中 出 现 了 与 欲 话 加 函数 
同名 的 函数 对 象 ， 则 需要 判断 当前 函数 声明 是 否 与 原 保 存 的 函数 对 象 
匹配 。 


第 7 行 取出 已 保存 的 函数 对 象 last， 第 8 行使 用 match 函 数 匹 配 欲 添 
加 画 数 与 已 保存 的 同名 函数 对 象 的 形式 ， 如 有 果 匹 瑟 失 败 ， 则 报告 贸 数 
声明 语义 错误 。 


函数 match 的 实现 如 下 : 


1 bool Fun: :match 


(Fun*f){ 
2 if(name!=f->name) 


3 return false; 

4 if(paraVar.size()!=f->paraVar.size()) 

5 return false; 

6 int len=paraVar.size(); 

7 for(int i=0;i<len;i++){ 

8 if(GenIR: :typeCheck 

(paraVar[i],f->paraVvar[i]))t / /类 型 兼容 

9 if(paraVar[i]->getType()!'=f->paraVar[i]- "pe 

10 SEMWARN( FUN_DEC_CONFLICT, name ) ， / 画 数 
声明 冲突 

11 } 

12 } 

13 else 

14 return false,; 

15 } 

16 if(type!=f->type)t{ / /匹配 成 功 
后 再 验证 返回 类 型 

17 SEMWARN( FUN_RET_CONFLICT, name ) ， // 画 数 
返回 值 冲突 

18 } 

19 return true; 

20 } 


第 2~5 行 验证 两 个 函数 的 画 数 名 和 参数 的 数量 是 否 相同 。 


第 7~15 行 验证 两 个 函数 的 参数 类 型 是 否 匹 配 ， 第 8 行使 用 代码 生 
成 器 的 typeCheck 函 数 检查 两 个 函数 的 类 型 是 否 可 以 相互 转换 ( 即 兼 
容 ， 比 如 类 型 ints 和 int[] 可 以 兼容 ) 。 第 9 行 表示 如 果 两 个 类 型 可 以 相 
互 转换 但 是 不 相同 ， 使 用 SEMWARN 报 告 “函数 声明 冲突 ”语义 警告 。 
如 果 参 数列 表 内 有 一 个 参数 类 型 不 能 兼容 ， 则 表示 函数 声明 不 能 正确 
匹配 。 


Sh 


第 16~18 行 检查 两 个 钞 数 返回 值 的 类 型 ， 返 回 类 型 不 能 决定 函数 
的 唯一 形式 ， 当 两 个 函数 的 返回 类 型 相同 时 ， 报 告 “返回 值 类 型 冲 


At 


义 函 数 对 象 的 添加 分 为 两 个 部 分 来 完成 : defFun 和 endDefFun 。 


1 void SymTab: :defFun 


(Fun* fun)t{ 


2 if(fun->getExtern())t{ //extern 
不 允许 出 现在 定义 

3 SEMERROR( EXTERN_FUN_DEF, fun->getName( )); 

4 fun->setExtern(false); 

5 } 

6 if(funTab.find(fun->getName())==funTab.end())t{ 

7 funTab[fun->getName( )]=fun; / /添加 画 数 
8 funList.push_back(fun->getName( )); 

9 

10 elsef // 已 经 声 
明 

11 Fun*last=funTab[fun->getName()]; 

12 if(last->getExtern())t{ / /之 前 是 声明 
13 if(!last->match 

(fun))t{ / /不 匹配 声明 

14 SEMERROR( FUN_DEC_ ERR, fun->getName( )); 

15 

16 last->define 

(fun); / /保存 定义 信息 

17 } 

18 elsef 

// 重 定义 

19 SEMERROR( FUN_RE_DEF, fun->getName( )); 

20 

21 delete fun; 


/ /删除 当前 画 数 对 象 


ES9 
里 


fun=last,; 


// 公 用 画 数 结构 体 


24 


} 


curFun=fun; 


// 当 前 分 析 的 函数 


25 ir->genFunHead 


(curFun); / /产生 函数 入 口 


26 
27 void Fun: :define 


(Fun*def ){ 

28 externed=false,; 

// 定 义 

29 paraVar=def->paraVar,; // 
拷贝 参数 

30 } 

31 void SymTab: :endDefFun 

(){ 

32 ir->genFunTail 

(curFun); / /产生 函数 出 口 


33 curFun=NULL 
// 当 前 分 析 的 画 数 置 空 


34 } 


函数 defFun 将 定义 函数 对 象 插入 函数 表 。 第 2~5 行 检查 函数 首部 是 
否 包 含 了 extern 天 键 字 ， 如 有 果 包 合 则 报告 语义 错误 ， 并 将 轴 数 对 象 的 
externed 字 段 设 为 false， 表 示 该 琅 数 是 被 定义 的 。 在 文法 定义 章节 中 ， 
我 们 讨论 了 带 extern 的 函数 定义 形式 ， 针 对 extermed 子 段 的 语义 检查 便 
征 对 语法 分 析 的 补充 。 


第 6~9 行 表示 当前 名 称 的 函数 对 象 首 次 添加 到 男 数 表 。 


第 10~20 行 处 理 函 数 表 中 己 有 同名 函数 对 象 的 情况 。 如 果 函 数 表 
内 存在 的 范 数 对 象 古 琅 数 声 明 ， 则 当前 添加 的 函数 定义 是 合理 操作 ， 
只 需要 检查 函数 形式 是 否 匹 配 即 可 。 如 有 果 画 数 表 内 存在 的 范 数 对 和 象 古 


函数 定义 ， 则 当前 状 加 函数 定义 是 非法 操作 。C 语 言 不 提供 函数 重 载 
的 机 制 ， 因 此 会 报告 函数 重 定义 语义 错误 。 


第 16 行 调用 define 函 数 将 函数 定义 的 信息 保存 到 原 有 的 函数 对 象 。 
define 函 数 的 实现 在 第 27~30 行 ， 即 设置 externed 字 段 为 false， 并 将 函数 
定义 的 参数 列表 保存 到 函数 表 内 存储 的 函数 对 象 内 。 这 是 因为 函数 体 
内 的 代码 要 用 到 参数 的 名 称 ， 原 有 的 函数 声明 中 参数 名 字 已 经 无 效 。 


第 25 行 调用 代码 生成 器 的 genFunHead 产 生 函 数 的 首部 ， 在 代码 生 
成 章 广 中 会 详细 摘 述 


函数 endDefFun 处 理 函 数 定义 结束 后 的 工作 。 首 先 为 当前 函数 对 象 
curFun 产 生 函 数 的 尾部 ， 然 后 将 curFun 指 针 置 为 NULEL ， 表 示 当 前 作用 
域 离 开 了 函数 作用 域 ， 并 进入 了 全 局 作用 域 。 


3. 获 取 函 数 对 和 象 


由 于 函数 对 象 是 直接 插入 函数 表 中 的 ， 因 此 使 用 函数 名 可 以 唯一 
确定 函数 对 象 。 在 语法 分 析 中 ， 访 问 画 数 对 象 的 时 机 有 古 在 函数 调用 的 
时 候 ， 因 此 获取 函数 对 象 时 还 需要 额外 检查 函数 调用 的 实际 参数 类 型 
征 否 与 函数 声明 的 形式 参数 类 型 匹配 。 


1 Fun* SymTab: :getFun 


人 name, Vector<Var*>& args)t{ 
if(funTab. find(name)!=funTab.end()){ 
3 Fun* last=funTab[name]; 


4 if(!last->match 


(args)){ 

5 SEMERROR(FUN_CALL_ERR, name ) ， // 形 参与 实 参 不 匹 
配 

6 return NULL; 

7 } 

8 return last; 

9 } 

10 SEMERROR( FUN_UN_DEC, name); // 画 数 未 声明 
11 return NULL,; 

12 } 


第 2 行 中 根据 函数 名 name 取 出 函数 表 funTab 的 函数 对 象 last， 如 果 
函数 对 象 不 存在 则 报告 “函数 未 声明 ”语义 错误 。 


第 4 行 检 查实 际 参 数列 表 是 否 与 形式 参数 列表 匹配 ， 如 采 不 匹配 报 


告 语义 错误 。 


1 bool Fun: :match 


(vector<Var*>&args)t{ 

2 if(paraVar.size()!=args.size()) 
3 return false; 

4 int len=paraVar.size(); 

5 for(int i=0;i<len;i++){ 

6 if(!GenIR: :typeCheck 


(paraVvar[i],args[i])) / /类 型 检查 不 兼容 


return false,; 


return true; 


POOON 


第 2~3 行 检查 实 参 和 形 参 列表 的 长 度 是 否 相 同 。 


第 5~8 行 退 历 参数 列表 ， 并 使 用 typeCheck 函 数 检 测 每 个 形式 参数 


和 实际 参数 类 型 是 否 兼容 。 


A YA 


在 符号 表 管理 中 ， 涉 及 了 很 多 语义 错误 的 处 理 。 根 据 图 3-18 描 述 
的 语义 动作 ， 语 义 分 析 是 “穿插 ”在 符号 表 管理 和 代码 生成 中 的 。 比 如 
在 获取 函数 对 象 时 ， 会 检查 函数 对 象 是 否 存 在 ， 这 本 身 殉 是 语义 分 析 
的 流程 。 本 市 所 述 的 语义 分 析 是 解决 语法 分 析 不 能 或 者 很 难处 理 的 上 
下 文 相关 信息 ， 而 语义 分 析 的 实现 则 由 具体 的 符号 表 管 理 功能 和 代码 
生成 功能 来 完成 。 


客观 地 说 ， 语 义 分 析 是 符号 表 管 理 和 代码 生成 过 程 中 ， 对 不 满足 
既定 语言 特性 的 处 理 。 比 如 ， 根 据 文 法 定义 ， 代 码 “void x; ”是 合法 
的 。 在 创建 变量 对 象 时 需要 记录 变量 的 类 型 void， 此 时 符号 表 和 需要 判 
断 类 型 的 合法 性 ， 指 出 void 类 型 的 变量 不 合法 。 换 名 话说， 如 果 代 码 
中 不 存在 语义 错误 ， 符 号 表 完 全 可 以 无 视 void 类 型 变量 的 情况 ， 直 接 
记录 变量 的 类 型 。 显 然 这 并 不 现实 ， 符 号 表 管 理 和 代码 生成 必须 检查 
输入 代码 的 合法 性 ， 束 像 处 理 程序 中 潜在 的 bug 那 样 ， 保 证 后 继 工作 的 


顺利 进行 ， 这 束 是 语义 分 析 。 


在 我 们 实现 的 编译 右 中 ， 从 三 个 方面 检查 程序 语义 的 合法 性 ， 声 
明 与 定义 、 表 达 式 和 语句 。 


3.4.1 再 明 与 定义 语义 检查 


在 符号 表 管理 中 ， 我 们 列举 的 代码 中 涉及 了 若干 声明 与 定义 类 语 
义 错误 。 包 括 变量 重 定 义 、 术 数 重 定 义 、 变 量 末 声明 、 画 数 未 声明 、 
函数 声明 与 定义 不 匹配 、 画 数 定义 不 允许 使 用 extermn 等 。 此 外 ， 声 明 与 
定义 的 语义 检查 还 包括 变量 不 能 是 void 类 型 、 数 组 长 度 必 须 是 正 整 
数 、 变 量 声 明 时 不 允许 初始 化 、 全 局 变量 初始 值 不 古 和 常量 、 变 量 初始 


化 类 型 错误 。 


变量 对 象 构 造 时 ， 会 调用 setType 芳 数 处 理 类 型 信息 。 


1 void Var::setType 


(Tag t){ 

2 type=t， 

3 if(type==Kw_VOID){ //VOid 变 量 
4 SEMERROR( VOID_VAR, 

yy / /不 允许 使 

VOid 变 量 

5 type=Kw_INT， / /默认 为 
int 

6 } 

7 if(!externed&&type==KW_INT)size=4; / /整数 

4 字 节 

8 else if(!externed&&type==KwW_CHAR)Size=1， / /字符 

1 字 节 


第 2 行 记 录 了 变量 类 型 type， 第 3~6 行 处 理 void 类 型 变量 的 语义 错 
误 ， 并 将 void 变量 转化 为 it 类 型 ， 第 7~8 行 计算 变量 的 大 小 。 


对 于 数组 变量 ， 需 要 在 声明 时 指定 数组 长 度 (长 度 为 常量 ) 。 


1 void Var::setArray 
(int len)f{ 
2 if(len<=0){ 
3 SEMERROR(ARRAY_LEN_INVALID 
1 hame ) ; // 数 组 长 度 小 于 等 于 


0 错误 


4 return ， 

5 

6 elsef{ 

7 isArray=true; 

8 isLeft=false; / /数组 不 能 
作为 左 值 

9 arraySize=len; 

10 if(!externed)size*=]len; / /类 型 大 
小 乘 以 数组 长 度 

11 } 

12 } 


第 2~5 行 判断 数组 长 度 不 大 于 0 时 ， 报 告 语义 错误 。 


第 6~11 行 记录 数组 的 基本 信息 ， 其 中 isLeft=false 表 示 数 组 不 能 作 
为 左 值 ， 计 算数 组 大 小 时 则 有 是 将 数组 类 型 大 小 与 数组 长 度 相 乘 。 


变量 声明 时 初始 化 部 分 由 setInit 处 理 。 


1 bool Var::setInit 


(){ 
2 
出 初 值 数据 


Var*init=initData; // 取 


3 if(!init)return false; 

4 inited=false; 

5 if(externed) 

6 SEMERROR(DEC_INIT_DENY, 

name ) ; / /声明 不 允许 初始 化 

7 else if(!GenIR::typeCheck 

(this, init)) 

8 SEMERROR(VAR_INIT_ERR, 

name ) ; / /类 型 检查 不 兼容 

9 else if(init->literal)t{ // 初 值 为 
常量 

10 inited=true; 

11 if(init->isArray) // 初 值 
是 数组 ， 必 是 字符 串 

12 ptrVval=init->name; // 字 
符 指 针 初 值 

= 常量 字符 串 名 

13 else 

/ /基本 类 型 

14 intVal=init->intVal; // 
复制 数值 数据 

15 } 

16 elsef{ 

/ /初始 值 不 是 常量 

17 if(scopePath.size( )==1) / /初始化 
全 局 变量 

18 SEMERROR( GLB_INIT_ERR, 

name ) ; / /全 局 变量 初始 化 必须 是 常量 

19 else 


/ /初始 化 局 部 变量 


20 return true; 
21 } 
22 return false,; 


语法 分 析 的 init 子 程序 将 变量 的 初 值 数据 记录 到 initData 中 ，setInit 
将 initData 指 回 的 变量 对 象 数据 取出 ， 进 行 变 量 初始 化 工作 。 


第 5~6 行 表示 变量 对 象 的 externed 字 段 为 tue， 为 变量 声明 ， 不 能 


进行 初始 化 。 


第 7~8 行 检查 初 值 变 量 对 象 类 型 是 否 与 被 初始 化 的 变量 对 象 类 型 


第 9~15 行 考虑 初 值 变 量 对 象 是 常量 的 情况 。 


第 11~12 行 表示 初 值 变量 既是 常量 又 是 数组 ， 满 足 这 两 个 条 件 的 只 
有 字符 串 利 量 。 由 于 文法 定义 中 未 涉及 数组 变量 初始 化 的 语法 ， 而 前 
面 的 类 型 检查 已 经 通过 ， 因 此 使 用 向量 字符 溃 初 始 化 的 变量 一 定 是 字 
和 从 指针。init 的 name 字 段 便 是 常量 字符 串 的 名 称 ， 使 用 ptrVal 字 段 来 记 
录 初 值 子 符 串 的 名 称 。 


第 13~14 行 表示 初 值 变量 是 基本 类 型 的 常量 ， 因 此 直接 复制 初 值 
数据 intVal 即 可 。 


第 16~21 行 处 理 初 值 不 是 常量 的 情况 。 


第 17~18 行 表示 被 初始 化 的 是 全 局 变量 ， 由 于 目 定 义 语 言 规定 全 
局 变量 不 能 使 用 非常 量 初始 化 ， 因 此 这 里 报告 语义 错误 。 


第 19~20 行 处 理 局 部 变量 的 初始 化 ， 由 于 局 部 变量 的 初 值 不 是 常 
量 ， 即 局 部 变量 的 初始 值 是 一 个 表达 式 。 因 此 需要 先 计 算 初 值 表达 式 
的 值 ， 然 后 使 用 赋值 语句 对 局 部 变量 初始 化 。 此 处 返回 true， 表 示 
setInit 调 用 结束 后 ， 需 要 生成 initData 到 this 的 赋值 语句 。 


在 符号 表 管 理 的 添加 变量 对 象 章 世 描述 addvar 函 数 实 现时 ， 提 到 
的 函数 genVarImnit 是 setImnit 函 数 的 调用 者 。 


1 bool GenIR: :genVarInit 


(Varx*Vvar ){ 

2 if(var->getName()[0]=='<')return false,; 

3 Symtab .addInst(new InterInst(OP_DEC, var)); 

4 if(var->setInit()) // 初 
始 化 

5 genTwoOp 


(var,ASSIGN 
6 ,var->getInitData( )); // 赋 
值 语 句 


name=init->name 
7 return true; 
8 } 


在 函数 genVarInit 中 ， 首 先 处 理 整 型 疝 量 和 字符 常量 的 变量 对 象 ， 
它们 不 需要 初始 化 。 

第 3 行 生 成 了 变量 的 定义 指令 ， 以 方便 代码 生成 时 处 理 变量 的 初始 
人 


第 4~6 行 调用 setInit 对 变量 对 象 初始 化 ， 如 果 返 回 值 为 tue， 则 表 
示 使 用 了 非常 量 初始 化 局 部 变量 ， 因 此 需要 生成 赋值 语句 代码 。 被 赋 


值 的 变量 为 var， 值 为 var 对 象 内 initData 指 癌 的 变量 。 了 函数 genTwoOp 对 
双 损 作 数 运算 表达 式 进 行 代码 生成 ， 代 码 生成 章 世 会 对 此 进行 详细 描 


述 。 


3.4.2 ”表达 去 语义 检 


表达 式 的 语义 检查 包括 函数 调用 时 实 参与 形 参 的 类 型 不 匹配 、 表 
达 式 不 能 作为 左 值 、 函 数 的 void 返回 值 不 能 参与 表达 式 运算 、 赋 值 类 
型 不 匹配 、 表 达 式 不 能 是 基本 类 型 、 表 达 式 不 是 基本 类 型 、 数 组 索引 
运算 错误 。 在 符号 表 管 理 中 ， 已 经 描述 了 画 数 实 参 和 形 参 类 型 匹配 语 
义 的 分 析 。 


在 赋值 表达 式 中 ， 被 赋值 的 可 能 是 变量 (a=1) ， 也 可 能 是 数组 索 
引 表达 式 (a[0]=1) 或 指针 表达 式 (*p=1) 。 因 此 ， 赋 值 运 算 符 两 侧 
都 是 表达 式 形式 ， 文 法 上 我 们 也 没有 做 额外 的 限制 。 但 是 语义 分 析 
时 ， 必 须要 求 被 赋值 的 表达 式 是 左 值 表达 式 。 除 了 赋值 表达 式 中 需要 
处 理 左 值 表达 式 ， 前 绥 自 加 自 (++i) 、 后缀 和 目 加 目 减 〈i++) 和 取 
址 运算 (&a) 也 要 求 运 算 对 象 是 左 值 。 


1 Var* GenIR: :genoneOpRight 


“0 val, Tag opt){ 
if(!val)return NULL; 
3 if(val->isVoid 


())t 
4 SEMERROR( EXPR_IS_VOID 


js //VOid 变 量 

5 return NULL; 

6 } 

7 if(!val->getLeft 

())t 

8 SEMERROR( EXPR_NOT_LEFT_VAL 


了 
9 return val; 


10 } 
11 if(opt==INC)return genIncR 

(val); // 右 自 加 语句 
12 if(opt==DEC)return genDecR 

(val); // 右 自 减 语句 
13 return val,; 

14 } 


函数 genOneOpRight 处 理 单 目 后 级 运算 和 从 表达 式 ， 即 后 级 目 加 目 


第 7~10 行 调用 变量 对 象 的 getLeft 函 数 获取 判断 变量 是 否 是 左 值 ， 
如 打 不 是 左 值 ， 则 报告 语义 错误 。 


函数 genIncR 和 genDecR 分 别处 理 后 绥 目 加 目 减 表达 式 的 翻译 。 


在 上 述 代 码 的 第 3~6 行 ， 判 晰 了 变量 是 否 为 void 类 型 。void 类 型 的 
变量 并 非 来 源 于 使 用 void 声明 的 变量 (setType 函 数 将 void 变 量 转 化 为 
int 类 型 ) ， 而 是 来 源 于 返回 值 类 型 为 void 的 函数 调用 ， 代 码 生 成 中 会 
描述 这 一 实现 细节 。 


赋值 表达 式 运 算 中 ， 需 要 进行 必要 的 类 型 转换 ， 因 此 赋值 运算 符 
两 侧 的 表达 式 类 型 必须 是 兼容 的 ， 使 用 代码 生成 右 的 typeCheck 函 数 检 
查 赋 值 表达 式 的 类 型 。 


指针 表达 式 要 求 运算 的 表达 式 必 须 是 指针 或 者 数组 ， 而 不 能 是 基 
本 类 型 。 而 在 一 般 的 算术 表达 式 中 ， 要 求 运算 的 表达 式 必 须 是 基本 类 
型 而 非 指 针 或 者 数组 。 


数组 索引 表达 式 中 ， 对 类 型 的 有 要求 比较 复杂 。 


1 Var* GenIR: :genArray 


(Var*array,Var*index){ 


2 if(!'array || !index)return NULL; 

3 if(array->isVoid()||index->isVoid())t{ 
4 SEMERROR( EXPR_IS_VOID 

); 

5 return NULL; 

6 } 

7 if(array->isBase() || !index->isBase()){ 
8 SEMERROR(ARR_TYPE_ERR 

); 

9 return index; 

10 

11 return genPtr 

(genAdd 


(array, index)); 
12 } 


在 第 7~10 行 ， 进 行 对 数组 索引 运算 的 语义 检查 。 要 求 数组 变量 对 
象 array 不 能 是 基本 类 型 ， 索 引 表 达 式 index 必 须 是 基本 类 型 ， 否 则 报告 


语义 错误 。 


第 11 行 生成 数组 索引 表达 式 的 代码 ， 此 处 将 数组 索引 运算 拆 分 为 
两 步 : 根据 数组 名 和 索引 做 加 法 运算 得 到 数组 元 素 地 址 ， 再 对 地 址 做 
指针 运算 获取 数组 元 素 的 值 。 


表达 式 的 语义 检查 和 具体 的 表达 式 翻 译 相 关 性 很 大 ， 因 此 在 后 面 
表达 式 的 代码 生成 时 ， 需 要 留意 不 同 表 达 式 语义 检查 的 内 容 。 


34.3 请 旬 语义 恪 得 


目 定 义 语言 设计 的 语句 基本 都 是 独立 的 单位 ， 很 少 存在 上 下 文 相 
天 的 信息 。 不 过 有 三 个 语句 较为 特殊 : break、continue 和 return 语 句 ， 
它们 的 出 现 和 位 置 都 有 一 定 的 限制 ， 相 对 应 的 语义 错误 是 break 语 句 不 
在 循环 和 switch 语 句 内 、continue 语 句 不 在 循环 语句 内 和 retum 语 名 与 男 
数 返 回 值 不 匹配 。 


break 语 句 只 能 出 现在 循环 语句 和 switch 语 句 内 部 ， 由 于 复合 语句 
文 持 由 套 ， 因 此 需要 使 用 与 作用 域 管 理 类 似 的 机 制 记录 复合 语句 的 杉 
套 层次 。 在 代码 生成 中 ， 代 码 生 成 右 使 用 栈 记录 复合 语句 的 类 型 、 入 
口 标签 和 出 口 标签 。 只 要 翻译 break 语 句 时 栈 中 存在 循环 或 switch 复 合 
语句 ，break 语 句 便 是 合法 的 ， 否 则 报告 语义 错误 。 


continue 语 句 与 break 语 句 类 似 ， 不 过 翻译 continue 语 名 时， 只 需要 
关心 循环 语句 的 组 套 层 次 。 


retum 语 名 有 两 种 形式 : 有 返回 值 的 return 和 无 退回 值 的 returmn。 由 
于 我 们 设计 的 函数 限定 返回 值 只 能 是 基本 类 型 ， 而 基本 类 型 只 有 int 和 
char 类 型 ， 它 们 是 相互 兼容 的 ， 因 此 retum 语 句 的 语义 分 析 是 检查 return 
语句 和 函数 返回 值 类 型 分 别 为 void 及 基本 类 型 时 的 情况 。 


1 void GenIR: :genReturn 


(Var*ret){ 

2 if(!ret)return,; 

3 Fun*fun=symtab.getCurFun(); 

4 if(ret->isVoid( )&&fun->getType()!=KwW_VOID 

5 ||ret->isBase()&&fun->getType()==KwW_VOID){ / /类 型 不 
容 

6 SEMERROR( RETURN_ERR 

站 /Areturn 语 句 和 画 数 返回 值 类 型 不 匹配 

7 return; 

8 

9 InterInst* returnPoint=fun->getReturnPoint()， // 获 取 返 回 点 
10 if(ret->isVoid()) 

11 Symtab .addInst(new InterIinst(OP_RET,returnpoint)); 

12 elsef{ 

13 if(ret->isRef())ret=genAssign(ret); // 处 理 
ret 是 

*p 情 况 

14 symtab.addIinst(new InterInst(OP_RETV, returnPoint, ret)); 

15 } 

16 } 


代码 的 第 4~8 行 对 return 语 句 的 返回 类 型 进行 检查 。 如 果 函 数 返 
值 不 是 void， 那 么 returmn 语 句 返 回 值 类 型 也 不 能 是 void。 如 果 函 数 返 
值 是 void，return 语 句 返 回 值 类 型 也 必须 是 void。 否则 ， 报 告 语义 错 
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第 9~15 行 为 retum 语 句 的 翻译 代码 ， 详 见 3.5.3 市 描述 的 内 容 。 


3.4.4 ”错误 处 理 


在 前 面 讨论 语义 分 析 时 ， 语 义 错误 都 是 使 用 SEMERROR 安 进行 处 
这 与 词法 错误 、 语 法 错误 的 处 理 类 似 。 不 过 语义 分 析 除 了 报告 
义 错 误 ， 还 包含 语义 警告 SEMWARN， 比 如 验证 函数 声明 形 参 匹配 时 
触发 的 语义 警告 。 语 义 分 析 中 处 理 的 语义 错误 和 语义 警告 如 表 3-7 所 


修 ° 


表 3-7 语义 错误 与 语义 警告 表 


语义 错误 /语义 警告 类 型 语义 错误 /语义 警告 信息 
VAR RE DEF 变量 重 定义 
FUN RE DEF 函数 重 定义 
VAR UN DEC 变量 未 声明 
FUN UN DEC 函数 未 声明 
FUN DEC ERR 函数 声明 与 定义 不 匹配 
FUN CALL ERR 函数 形 参 与 实 参 不 匹配 
DEC INIT DENY 变量 声明 时 不 允许 初始 化 
EXTERN FUN DEF 函数 定义 不 能 声明 extern 
ARRAY LEN INVALID 数组 长 度 应 该 是 正 整数 
VAR INIT ERR 变量 初始 化 类 型 错误 
GLB INIT ERR 全 局 变量 初始 化 值 不 是 常量 
VOID VAR 变量 不 能 声明 为 void 类 型 
EXPR NOT LEFT VAL 无 效 的 左 值 表达 式 
ASSIGN TYPE ERR 赋值 表达 式 类 型 不 兼容 
EXPR IS BASE 表达 式 操 作 数 不 能 是 基本 类 型 
EXPR NOT BASE 表达 式 操作 数 不 是 基本 类 型 
ARR TYPE ERR 数组 索引 运算 类 型 错误 
EXPR IS VOID void 的 函数 返回 值 不 能 参与 表达 式 运算 
BREAK ERR break 语句 不 能 出 现在 循环 或 switch 语句 之 外 
CONTINUE ERR continue 不 能 出 现在 循环 之 外 
RETURN ERR return 语句 与 函数 返回 值 类 型 不 匹配 
FUN DEC CONFLICT 函数 参数 列表 类 型 冲突 
FUN RET CONFLICT 函数 返回 值 类 型 不 精确 匹配 


在 扫描 器 内 ， 我 们 计算 了 字符 的 行 的 位 置 ， 还 保存 了 处 理 的 源 文 
件 名 称 。 根 据 表 3-7 提 供 的 语义 错误 /警告 信息 ， 实 现 语义 错误 /警告 信 
奶 输 出 的 相关 代码 如 下 : 


1 Me 
2 语义 错误 类 型 


*/ 
enum SemError 


Om WW 


VAR_RE_DEF, 


6 FUN_RE_DEF, 


10 


11 


12 


extern 


13 


14 


15 


16 


17 


18 


19 


20 


21 


22 


VOID 类 型 


23 


switch-case 中 


24 


25 


类 型 不 匹配 


VAR_UN_DEC, 


FUN_UN_DEC, 


FUN_DEC_ERR, 


FUN_CALL_ERR, 


DEC_INIT_DENY, 


EXTERN_FUN_DEF, 


ARRAY_LEN_INVALID, 


VAR_INIT_ERR, 


GLB_INIT_ERR, 


VOID_VAR, 


EXPR_NOT_LEFT_VAL, 


ASSIGN_TYPE_ERR, 


EXPR_IS_BASE, 


EXPR_NOT_BASE, 


ARR_TYPE_ERR, 


EXPR_IS_VOID, 


BREAK_ERR, 


CONTINUE_ERR, 


RETURN_ERR 


/ /变量 未 声明 


// 画 数 未 声明 


/ /数组 长 度 无 效 


/ /变量 初始 化 类 型 错误 


/ /全 局 变量 初始 化 值 不 是 常量 


//VvVoid 变 量 


/ /无 效 的 左 值 表 达 式 


/ /赋值 类 型 不 匹配 


/ /表达 式 操作 数 不 能 是 基本 类 


梁 


/ /表达 式 操作 数 不 是 基本 类 型 


/ /数组 运算 类 型 错误 


/ /表达 式 不 能 是 


//break 不 在 循环 或 


//continue 不 在 循环 中 


互 
区 


/V/return 语 句 与 画 数 返 


32 


33 
34 
35 


36 
37 


2 
enum Semwarn 


FUN_DEC_CONFLICT, 


FUN_RET_CONFLICT 


打印 语义 错误 


ph 
void Error::semError 


(int code,string name){ 


38 static const char *semErrorTable[]={ 
39 "变量 重 定义 

5 

46 " 画 数 重 定义 

41 "变量 未 声明 

42 " 画 数 未 声明 

43 " 画 数 声明 与 定义 不 匹配 

44 " 画 数 形 参与 实 参 不 匹配 

45 "变量 声明 时 不 允许 初始 化 
46 " 画 数 定义 不 能 使 用 声明 保留 
extern", 

47 "数组 长 度 应 该 是 正 整数 

48 "变量 初始 化 类 型 错误 

49 "全 局 变量 初始 化 值 不 是 常量 
50 "变量 不 能 声明 为 
VOid 类 型 

51 "无 效 的 左 值 表 达 式 

52 "赋值 表达 式 美 型 不 兼容 

5 

53 "表达 式 操作 数 不 能 是 基本 类 型 


// 画 数 参 数列 表 类 型 冲突 


// 


函数 返 


互 


值 类 型 冲突 


54 "表达 式 操作 数 不 是 基本 类 型 

55 "数组 索引 运算 类 型 错误 

56 myoid 的 丽 数 返回 什 不 能 参与 表达 式 运算 
57 "break 语 句 不 能 出 现在 循环 或 
SWitch 语 句 之 外 

in 

58 "continue 不 能 出 现在 循环 之 外 

5 

59 "return 语 句 和 画 数 返回 值 类 型 不 匹配 
60 }; 

61 errorNum++， 

62 printf("%s< 第 

%d 行 


> 语义 错误 


; %S %s.\n", 


63 scanner->getFile(), 
64 scanner->getLine(), 
65 name.c_str(), 

66 semErrorTable[code]); 
67 } 

68 /* 

69 打印 语义 警告 

70 */ 


71 void Error::semWwarn 


(int code,string name) 


72 { 

73 // 语 义 警告 信息 串 

74 static const char *semwarnTable[]={ 
75 "函数 参数 列表 类 型 冲突 

Li 

76 " 画 数 返 回 值 类 型 不 精确 匹配 
Li 

77 }; 

78 warnNum++; 

79 printf("%s< 第 

%d 行 

> 语义 警告 


scanner->getFile(), 
81 scanner->getLine(), 
82 name.c_str(), 


83 SemwarnTable[code])， 
84 } 
85 #define SEMERROR 


(code,name) Error::semError(code,name) 
86 #define SEMWARN 


(code,name) Error::semwWarn(code,name) 


第 1~33 行 使 用 榴 举 类 型 SemError 和 SemWarn 记 录 了 所 有 语义 错误 / 
警告 的 类 型 。 


只 


第 34~67 行 定义 输出 语义 错误 信息 的 函数 semError， 其 中 数组 
semErrorTable 保 存 了 与 语义 错误 类 型 对 应 的 信息 。 第 61 行 使 用 变量 
errorNum 记 孙 编 译 古 产生 的 错误 数 。 第 62~67 行 调用 了 扫描 硕 的 方法 获 
取 语 义 错误 产生 位 置 所 在 的 文件 名 和 行 号 。 


第 68~84 行 定义 输出 语义 警告 信息 的 函数 semWarn， 其 中 数组 
semWarnTable 保 存 了 与 语义 警告 类 型 对 应 的 信息 。 第 78 行 使 用 变量 
warmnNum 记 采编 详 俐 庆生 的 警告 数 。 第 79~84 行 调用 了 扫 搬 絮 的 方法 获 
取 语 义 错误 产生 位 置 所 在 的 文件 名 和 行 号 。 


第 85 行 使 用 宏 SEMERROR 封 装 semError 函 数 的 调用 。 
第 86 行 使 用 宏 SEMWARN 封 装 semWam 芳 数 的 调用 。 


至 此 ， 我 们 搬 述 了 语义 分 析 实 现 的 细 市 。 由 于 语义 分 析 罕 插 在 符 
号 表 管理 和 代码 生成 占 的 实现 中 ， 虽 然 在 符号 表 管 理 中 揪 述 了 所 有 相 


天 的 语义 分 析 细 市 ， 但 是 代码 生成 涉及 的 语义 分 析 并 未 详尽 插 述 。 在 
接 下 来 的 代码 生成 章节 中 ， 会 对 相关 的 语义 分 析 做 进一步 前 述 。 


3.5 ”代码 生成 


源 代码 经 过 词法 分 析 、 语 法 分 析 、 语 义 分 析 后 ， 如 末末 产生 人 钳 
误 ， 则 通过 语法 模块 相应 的 语义 动作 进行 代码 生成 。 代 码 生 成 本 质 上 
征 将 语法 模块 翻译 为 汇编 代码 ， 我 们 可 以 选择 在 识别 每 个 语法 模块 
时 ， 直 接 输 出 对 应 的 汇编 代码 。 


例如 对 于 全 局 变量 a 和 b， 赋 值 语句 “a=b; ” 便 可 以 翻译 为 : 


mov eax, [b] 
mov [al],eax 


根据 赋值 表达 陈 的 文法 定义 ， 我 们 在 赋值 表达 式 的 递归 下 降 子 程 
序 内 插入 代码 生成 对 应 的 语义 动作 代码 。 


1 //<assexpr>-><orexpr><asstail> 
2 Var* Parser::assexpr 


(){ 

3 Var*lval=orexpr 

(); 

4 return asstail 

(lval) 

5 

6 //<asstail>->ASSIGN <orexpr><asstail> | : 


7 Var* Parser::asstail 


(Var*lval)t{ 
8 if(match(ASSIGN 


)){ 
9 


Var*val=orexpr 


(); 


10 Var*rval=asstail 


(val); 

11 Var*result=ir .genTwoOp 
(lval,ASSIGN, rval); 

12 return result,; 

13 

14 return lval,; 

15 } 


16 Var* GenIR: :genTwo0p 


(Var*lval,Tag opt,Var*rval)t{ 


17 if(opt==ASSIGN){ 

18 fprintf(file， "mov eax,[%s]\n",rval->getName().c_str()); 
19 fprintf(file， "mov [%s],eax\n",lval->getName().c_str()); 
20 return lval; 

21 } 

22 } 


在 函数 asstail 中 ， 我 们 考虑 到 了 赋值 运算 符 的 右 结合 性 质 ， 因 此 在 
第 11 行 ， 将 赋值 语句 代码 生成 的 函数 调用 genTwoOp 放 在 了 第 10 行 
asstail 调 用 之 后 ， 这 样 束 可 以 保证 赋值 表达 式 从 右 癌 左 计 算 。 如 果 表 达 
式 的 运算 符 是 左 结合 的 ， 那 么 只 需要 调换 第 10、11 行 代码 的 位 置 ， 并 
修改 相应 的 参数 即 可 ， 例 如 : 


10 Var*result=ir.genTwoOp(lval,ASSIGN, val); 
11 Var*rval=asstail(result); 
12 return rval; 


从 这 里 也 可 以 看 出 运算 符 的 结合 性 只 是 影响 了 代码 生成 动作 的 位 
置 ， 而 不 会 影响 文法 产生 式 的 结构 。 


第 16~21 行 描述 了 赋值 表达 式 的 代码 生成 片段 ， 即 生成 上 述 两 条 汇 
编 语 铝 。 当 然 ， 赋 值 表 达 式 的 返回 值 应 该 是 被 赋值 的 变量 lval。 人 然而， 
这 里 只 给 出 了 全 局 变量 到 全 局 变量 风 值 表达 式 的 翻译 。 由 于 变量 存储 


的 多 样 性 ， 比 如 局 部 变量 使 用 [ebp+ 栈 帧 侦 移 ] 的 方式 访问 ， 而 常量 则 直 
接 使 用 立即 数 访 问 ， 这 样 的 翻译 方式 考虑 的 组 合 情 况 束 太 多 了 。 


男 外 ， 直 接 将 代码 的 翻译 工作 硬 编码 虽然 可 以 完成 代码 生成 ， 但 
苹 当 需要 生成 其 他 目标 指令 集 的 汇编 代码 或 者 对 代码 进行 优化 时 束 非 
常 困 难 。 因 此 ， 需 要 设计 一 个 中 间 层 来 屏蔽 具体 机 器 的 指令 集 细 市 ， 
同时 避免 考虑 代码 生成 时 变量 存储 访问 的 复杂 性 。 


如 图 3-22 所 示 ， 代 码 生 成 右 根 据 语义 动作 ， 并 非 直 接 将 语法 模块 翻 
译 为 x86 汇 编 代码 ， 而 古 生 成 中 间 人 代码。 中间 代码 生成 后 ， 再 将 中 间 代 
码 转换 为 具体 机 器 指令 集 的 汇编 代码 。 如 果 编 译 侨 文 持 代 码 优 化 ， 优 
化 器 会 对 中 间 代 码 和 目标 代码 进行 处 理 ， 生 成 更 高 效 的 目标 代码 。 


优化 大 二 


图 3-22 ”代码 生成 器 结构 


35.1 让 辐 代 侈 设计 


编译 全 使 用 的 中 间 代 码 形式 有 多 种 ， 比 如 抽象 语法 树 形式 、 三 元 
式 、 四 元 式 、 静 仿 单 赋值 形式 等 ， 本 书 采用 四 元 式 作 为 中 间 代 码 形 
二 

四 元 式 包含 四 个 基本 字段 ; 操作 符 op、 运 算 结 朱 result、 第 一 个 操 


作 数 arg1、 第 二 个 操作 数 arg2， 其 一 般 形式 为 : 


result = arg1 op arg2 


四 元 式 的 含义 为 使 用 操作 符 op 得 到 操作 数 arg1 和 arg2 的 计算 结 
并 将 结果 保存 到 result 中 。 


如 表 3-8 所 示 ， 并 非 每 一 条 中 间 代 码 指令 都 使 用 了 四 元 式 的 所 有 字 
段 ， 比 如 操作 符 op_neg 表 示 取 负 运 算 ， 未 使 用 arg2 字 段 。 甚 至 某 些 字段 
具有 多 重 含 义 ， 比 如 操作 符 op_proc 表 示 无 返回 值 画 数 调用 ，arg1l 字 段 
在 表达 式 中 一 般 表 示 一 个 变量 对 象 ， 而 在 这 里 表示 被 调用 的 函数 对 
象 o 


表 3-8 中间 代码 指令 
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中 间 代 码 指令 的 操作 符 的 定义 为 : 


1 enum Operator 


{ 
2 OP_NOP， // 空 指令 


3 OP_DEC, / /声明 


4 OP_ENTRY, OP_EXIT， // 画 数 出 入 口 
5 OP_AS, / /赋值 

6 OP_ADD, OP_ SUB, OP_MUL, OP_DIV, OP_MOD, / /算术 运算 
7 OP_NEG, // 取 负 

8 OP_GT, OP_GE, OP_LT, OP_LE, OP_ EQU, OP_NE, / /关系 元 算 
9 OP_NOT, // 非 

10 OP_AND, OP_OR, // 与 、 或 

11 OP_LEA， // 取 址 

12 OP_SET, OP_GET, / /指针 运算 
13 OP_JMP, / /无 条 件 跳 转 
14 OP_JT,OP_JF,OP_JNE, / /条 件 跳 转 
15 OP_ARG, / /参数 传递 
16 OP_PROC, / /调用 过 程 
17 OP_CALL， / /调用 画 数 
18 OP_RET, / /直接 返 区 
19 OP_RETV // 带 数据 返 区 
20 }; 


其 中 操作 符 标 签 都 使 用 大 写 形 式 ，OP_NOP 指 令 作 为 操作 符 的 默认 
值 。 


我 们 使 用 InterInst 数 据 结构 摘 述 一 条 中 间 代码 指令 。 


1 class InterInst 


{ 

2 string label; / /标签 

3 Operator op; / /操作 符 
4 Var *result,; / /运算 结果 
5 Var*arg1; / /参数 

1 

6 Var *arg2; / /参数 

2 

7 Fun*fun; // 画 数 

8 InterIinst*target; // 跳 转 标号 
9 }; 


字段 label 表 示 当 前 指令 是 标签 还 是 真正 的 指令 。 如 果 label 为 空 
串 ， 则 表示 正常 的 指令 ， 否 则 记录 标签 的 名 称 。 


字段 op 、result、arg1 和 arg2 分 别 记 录 了 四 元 式 的 基本 了 要素 。 


字段 fun 记 有 杂 某 些 四 元 式 使 用 的 印 数 对 象 ， 比 如 op_proc 指 令 调 用 的 


字段 targeti 记 孙 有 茶 些 四 元 式 使 用 的 标 和 丛 ， 比 如 op_jmp 指 令 的 目标 标 


和 o 


YY/ 


在 代码 生成 侨 中 ， 语 法 模块 的 翻译 结果 不 再 是 目标 指令 集 的 汇编 
代码 ， 而 是 中 间 代 码 指令 序列 。 在 Fun 对 象 中 的 interCode 字 段 是 
vector<InterInst*> 类 型 ， 它 记录 了 函数 的 中 间 代 码 指 令 序 列 。 当 所 有 的 


代码 被 编译 器 处 理 完 毕 后 ， 每 个 interCode 都 保存 了 对 应 函数 的 中 间 代 
码 翻译 结果 ， 此 时 只 需要 将 这 些 中间 代 码 再 翻译 为 目标 指令 集 的 汇编 
代码 即 可 。 


3.5.2 ”程序 运行 时 存储 


在 代码 翻译 的 过 程 中 ， 涉 及 很 多 程序 运行 时 的 细节。 不 同 的 操作 
系统 和 指令 集体 系 结构 ， 其 代码 翻译 方式 也 不 尽 相 同 。 因 此 在 讨论 具 
体 语法 模块 的 代码 生成 之 前 ， 我 们 需要 了 解 程序 运行 时 存储 相关 的 知 


识 。 


1. 进 程 内 存 组织 


我 们 知道 在 操作 系统 中 ， 程 序 运行 时 是 以 进程 形式 存在 的 。 在 高 
级 语言 层面 ， 我 们 面 对 的 十 变 量 、 函 数 、 表 达 式 和 语句 等 语言 元 素 ， 
而 在 进程 的 内 存 空间 中 ， 所 有 的 高 级 语言 信息 都 转化 为 二 进 制 形 式 。 
弄 清 高 级 语言 元 素 与 进程 、 内 存 占用 情况 的 对 应 关系 ， 对 代码 生成 至 
天 重要 。 


如 图 3-23 所 示 ， 在 32 位 的 Linux 系 统 中 ， 进 程 搜 有 4GB 的 线性 地 址 
空间 。 其 中 高 1GB 的 地 址 空间 分 配给 操作 系统 内 核 ， 剩 余 的 3GB 地 址 
空间 称 为 用 户 空间 ， 用 于 存放 进程 的 用 户 级 代码 和 数据 。 在 用 户 空间 
中 ， 最 为 关键 的 部 分 为 代码 段 、 数 据 段 、 堆 和 栈 。 


内 核 空间 


图 3-23 ”进程 内 存 组 织 


其 中 ， 代 码 段 “.text* 保 存 进程 的 二 进 制 代码 ， 其 中 CPU 的 程序 计 
数 右 pc 指针 整 是 指 癌 代码 段 区 的 某 条 指令 的 起 始 地 址 。 程 序 执行 时 ， 
pc 指针 在 代码 段 内 移动 ， 实 现 程 序 的 顺序 、 跳 转 执 行 。 


数据 段 “.data” 保 存 进程 的 静态 数据 ， 比 如 全 局 变量 、 营 量子 符 串 
等 。 在 Linux 系 统 中 ， 一 般 将 初始 化 的 全 局 变量 放 在 数据 段 ， 将 未 初始 
化 的 全 局 变量 放 在 “.bss” 段 ， 而 将 当量 字符 串 放 在 具有 只 读 属 性 
的 “.rodata” 段 内 (也 称 文字 池 ) 。 为 了 降低 编译 系统 实现 的 复杂 度 ， 
我 们 将 所 有 的 数据 放 在 数据 段 内 。 


进程 空间 内 的 堆 并 非 数据 结构 学 科 中 所 描述 的 最 大 (小 ) 堆 ,， 它 
征 保存 程序 运行 时 动态 分 配 的 数据 所 在 的 地 址 裤 间 。C 语 言 的 malloc 和 
free 操 作 的 内 存 便 十 堆 的 内 存 。 当 堆 空 间 不 足 时 ， 操 作 系 统 会 目 动 增 
加 扒 的 大 小 ， 堆 的 地 址 空间 是 向 高 地 址 方向 增长 的 。 我 们 设计 的 自 定 
义 语言 不 涉及 动态 内 存 分 配 ， 因 此 不 会 使 用 堆 空 间 。 


进程 空间 内 的 栈 与 数据 结构 理论 中 所 摘 述 的 栈 比 较 相 似 ， 它 满足 
先进 后 出 的 原则 ， 而 且 是 一 块 连续 的 内 存 空间 。CPU 的 栈 指针 寄存 天 
esp 总 是 指 问 栈 顶 位 置 ， 当 数据 入 栈 时 ，esp 诚 小 ， 当 数据 出 栈 时 ，esp 
增加 。 当 栈 空 间 不 足 时 ， 操 作 系 统 会 目 动 增加 栈 的 大 小 ， 栈 的 地 址 至 
间 是 向 低地 址 方 同 增长 的 。 栈 在 程序 语言 的 功能 实现 中 十 分 重要 ， 男 
数 调用 、 实 际 参数 传递 以 及 局 部 变量 的 存储 都 是 由 栈 来 完成 。 


在 代码 生成 中 ， 需 要 明确 每 次 语法 模块 的 翻译 所 涉及 的 进程 内 
存 。 源 代码 定义 的 全 局 变量 和 字符 串 稼 量 需 要 保存 到 数据 段 ， 函 数 体 
内 的 表达 式 计 算 和 复合 语句 以 二 进 制 代码 的 形式 保存 到 代码 段 ， 函 数 
调用 的 实际 参数 和 函数 内 的 局 部 变量 保存 在 栈 内 。 


2. 芳 数 栈 幅 管理 


从 进程 内 存 空 间 的 角度 来 看 ， 函 数 调用 是 一 个 复杂 的 过 程 。 它 牵 
涉 到 代码 段 中 国 数 定 义 、 调 用 和 返回 的 二 进 制 代码 。 同 时 ， 参 数 的 传 
递 、 局 部 变量 的 管理 都 与 栈 恩 轧 相 关 。 一 般 使 用 栈 帧 朱 述 一 次 函数 的 


调用 过 程 ， 当 发 生 范 数 调 用 时 ， 和 需要 开 尽 栈 帧 保存 实际 参数 、 局 部 变 
量 等 信息 ， 当 函数 调用 结束 时 ， 需 要 将 函数 的 栈 帧 释放 。 


[ebp+?] 
: [ebp+8] 


返回 地 址 可 [ebp+4] 
Emal 


[ebp-4] 
局 部 变量 


[ebp-?] 


图 3-24 ”函数 栈 帧 


如 图 3-24 所 示 ， 男 数 调 用 前 ， 栈 顶 在 “ 原 esp” 指 向 的 位 置 。 男 数 调 
用 发 生 时 ， 依 次 入 栈 的 数据 为 实际 参数 、 画 数 返 回 地 址 、ebp 寄 存 絮 值 


和 局 部 变量 。 


根据 C 语 言 画 数 调用 规则 ， 实 际 参数 从 右 同 左 依次 入 栈 。 假 设 团 
数 调 用 形式 为 : 


fun(0,1); 


使 用 push 指 令 将 实际 参数 入 栈 。 


push 1 
push 0 


实际 参数 入 栈 完 毕 后 ， 使 用 call 指 令 进 行 男 数 调用 。 


call fun 


指令 call fun 的 含义 为 ， 将 call 指 令 的 下 一 条 指令 的 起 始 地 址 (函数 
调用 后 的 返回 地 址 ， 入 栈 ， 然 后 跳 转 到 fun 标 签 的 位 置 继续 执行 。 
跳 转 到 fun 标 签 后 ， 便 开始 执行 fan 函 数 的 指令 。 最 先 执行 的 两 条 


指令 是 : 


push ebp 
mov ebp,esp 


其 中 ， 第 一 条 指令 是 将 ebp 寄 存 右 值 入 栈 。 第 二 条 指令 钙 将 栈 指针 
esp 保 存 到 ebp。 这 样 ebp 指 问 的 内 存 保存 的 内 容 恰 好 是 原 ebp 寄 存 右 的 
值 。 而 实际 参数 相对 于 ebp 寄 存 右 的 偏 移 依次 为 8、12、16..……… (假设 
实际 参数 都 是 4 字 节 大 小 。) 


实际 参数 

0: 
[ebp+8 ] 实际 参数 
1: 


[ebp+12] 


设 定好 ebp 寄 存 器 后 ， 接 下 来 为 局 部 变量 开 屏 栈 空间 ， 假 如 fun 芳 
数 有 两 个 int 类 型 的 局 部 变量 。 


sub esp,8 


这 样 栈 指针 esp 便 指 癌 了 最 后 一 个 局 部 变量 ， 而 局 部 变量 相对 于 
ebp 寄 存 器 的 仿 移 依次 为 -4、-8、-12..……. (假设 局 部 变量 都 是 4 字 节 大 
a 


局 部 安 蛙 


[ebp -4 ] 局 部 变量 
2: 


[ebp-8] 


一 般 称 ebp 为 函数 栈 帧 的 基 址 ， 对 实际 参数 和 局 部 变量 的 访问 痢 是 
对 基 址 ebp 加 侦 移 的 内 存 访问 。 由 于 每 次 函数 调用 时 产生 的 函数 栈 帧 都 
有 目 己 的 ebp 值 ， 因 此 每 次 函数 调用 都 需要 首先 将 ebp 寄存 器 入 栈 保 
存 。 


函数 调用 结束 后 ， 需 要 将 函数 栈 帧 释放 。 首 允 处 理 轩 数 的 返回 
值 ， 假 设 fan 函数 返回 值 为 0。 


mov eax,0 


根据 C 语 言 画 数 调用 规则 ， 函 数 调用 后 ， 返 回 值 保存 在 寄存 大 eax 


然后 释放 局 部 变量 的 空间 ， 恢 复 ebp 寄 存 右 的 值 。 


mov esp,ebp 
pop ebp 


第 一 条 指令 将 栈 指 和 针 esp 恢 复 为 先前 保存 在 ebp 寄 存 絮 中 的 值 ， 然 
后 使 用 pop 指 令 恢复 ebp 的 值 。 


最 后 使 用 ret 指 令 实现 函数 返回 。 


画 数 返回 指令 ret 的 含义 为 ， 取 出 栈 顶 保存 的 画 数 返回 地 址 ， 然 后 
跳 转 到 该 地 址 继续 执行 。 


函数 返回 后 ， 栈 指针 esp 并 未 恢复 到 “ 原 esp” 的 位 置 ， 因 此 函数 调 
用 者 需要 显 式 地 释放 实际 参数 的 空间 。 


add esp, 8 


由 于 调用 函数 fun 时 ， 压 入 了 两 个 4 子 市 参数 到 栈 中 ， 因 此 需要 将 
esp 指 针 加 上 8 字 节 ， 恢 复 到 调用 函数 之 前 的 状态 。 


在 整个 函数 调用 的 过 程 中 ， 我 们 称 从 实际 参数 到 局 部 变量 所 开 尽 
的 内 存 衬 间 为 范 数 栈 帧 。 而 函数 栈 帆 基 址 由 ebp 寄存 夯 保 存 ， 对 实际 参 
数 和 局 部 变量 的 访问 都 是 通过 ebp 的 基 址 寻 址 来 实现 。 


根据 函数 的 栈 帧 管理 方式 ， 来 决定 函数 定义 代码 和 调用 代码 的 翻 
译 。 假 设 有 如 下 函数 定义 : 


1 int fun(int X){ 
2 int y=x; 


3 return y; 
4} 


将 该 函数 定义 翻译 为 x86 汇 编 代 码 形式 为 : 


1 fun: 
2 push 

ebp 
3 mov 

ebp, esp 
4 sub esp, 4 
5 mov eax, [ebp+8] 
6 mov [ebp-4], eax 
7 mov eax, [ebp-4] 
8 mov 

esp, ebp 
9 pop 

ebp 


10 ret 


第 1 行为 函数 名 标签 fn， 它 记录 函数 开始 执行 的 位 置 。 
第 2~3 行 为 进入 函数 代码 ， 用 于 保存 ebp， 设 定 新 的 栈 帧 基 址 。 
第 4 行为 局 部 变量 开辟 栈 帧 空间 。 


第 5~6 行 通过 ebp 的 基 址 寻 址 访问 参数 变量 和 局 部 变量 ， 完 成 函数 


内 代码 的 翻译 。 
第 7 行将 函数 返回 值 保 存 到 eax 寄 存 右 中 。 


第 8~10 行 为 退出 函数 代码 ， 恢 复 栈 指针 esp、 栈 基 址 ebp， 并 执行 


对 于 函数 调用 者 ， 假 设 琅 数 调 用 形式 为 : 


glb=fun(0); 


假定 gb 变量 为 全 局 变量 ， 那 么 函数 调用 翻译 为 x86 汇 编 的 形式 


1 push 0 

2 call fun 

3 add esp,4 

4 mov [glb],eax 


其 中 push 指 令 将 参数 0 入 栈 ， 然 后 使 用 call 指 令 调用 函数 fun。fun 调 
用 结束 后 ， 需 要 释放 实际 参数 的 栈 空 间 ， 因 此 需要 将 esp 加 4。 最 后 将 


保存 在 eax 的 函数 返回 值 传 送 给 全 局 变量 glb 。 


3.5.3” 贺 数 定义 与 returmm 语 句 翻 详 


明确 了 画 数 栈 帧 管理 的 方式 后 ， 函 数 定 义 的 代码 翻译 就 比较 简单 
了 。 在 前 面 描 述 的 符号 表 的 defFun 画 数 实现 中 ， 调 用 了 genFunHead 产 
生 函 数 的 入 口 代 码 。 而 在 符号 表 的 endDefFun 函 数 实 现 中 ， 调 用 了 
genFunTail 产 生 函 数 的 出 口 代码 。 


1 void GenIR: :genFunHead 


(Fun*function){ 
function->enterScope() ， 
/ /进入 函数 
3 Symtab .addInst(new InterInst(OP_ENTRY 
,function) ) // 画 数 入 口 
4 function->setReturnPoint(new InterInst ) ， // 创 
建 返回 点 
5 
6 void GenIR::genFunTail 
(Fun*function){ 
7 symtab .addInst(function->getReturnPoint()); // 画 数 返 下 
点 
8 symtab.addInst(new InterInst(OP_EXIT 
, function)); // 画 数 出 口 
9 function->leaveScope(); 
/ /退出 函数 


第 1~5 行 为 genFunHead 实 现代 码 ， 青 完 调 用 Fun 的 enterScope 进 入 
玉 数 作用 域 ， 然 后 创建 中 间 代 码 指 令 OP_ENTRY 提 供 函 数 入 口 ， 并 使 
用 符号 表 提 供 的 addInst 函 数 将 该 指令 添加 到 函数 对 象 的 interCode 内 。 
最 后 使 用 无 参 InterInst 构 造 画 数 创建 一 个 唯一 的 标签 ， 保 存 到 函数 对 象 


的 returnPoint 字 段 。 


第 6~10 行 为 geanFunTail 实 现代 码 ， 首 先 将 函数 对 象 的 returnPoint 指 
向 的 标签 添加 到 interCode， 然 后 创建 中 间 代 人 码 指令 OP_EXIT 以 提供 函 
数 出 口 ， 并 添加 到 interCode。 最 后 调用 leaveScope 退 出 函数 作用 域 。 


在 上 述 代码 中 ， 总 是 涉及 函数 对 象 的 字段 returnPoint。 该 字段 指 回 
一 个 InterInst 对 象 ， 表 示 函 数 退 出 代码 的 位 置 。 之 所 以 保存 这 个 字段， 
是 为 了 翻译 return 语 句 的 需要 。 


假设 画 数 体内 出 现 了 多 个 retum 指 令 。 


int fun(){ 


1 
2 return 1; 
3 Es 

4 return 0; 
5 


} 


由 于 每 次 return 语 句 执 行 后 都 需要 执行 钞 数 退出 代码 ， 为 了 避免 每 
次 翻译 returmn 语 句 都 重复 产生 芳 数 退出 代码 ， 因 此 使 用 returnPoint 记 也 
退出 代码 的 位 置 ， 每 次 retum 语 句 执 行 后 只 需要 跳 转 到 该 位 置 即 可 。 我 
们 希望 fun 函 数 翻译 为 中 间 代码 形式 如 下 : 


1 fun: 

2 OP_ENTRY fun 

3 OP_RETV 1 goto returnPoint 
4 二 

5 OP_RETV © goto returnPoint 
6 returnPoint : 

7 OP_EXIT fun 


根据 前 面 的 要 求 ，retum 语 句 的 翻译 如 下 : 


1 void GenIR: :genReturn 


(Varx*ret){ 


2 
3 
4 
5 


/ /类 型 不 兼 4 


(); 


10 
11 


if(!ret)return,; 
Fun*fun=symtab.getCurFun(); 
if(ret->isVoid()&&fun->getType()!=KwW_VOID 


颈 


} 


| |ret->isBase()&&fun->getType( )==KW_VOID){ 


SEMERROR( RETURN_ ERR); 


return; 


InterInst* returnPoint=fun->getReturnPoint 


/ /获取 返 


加 


点 


if(ret->isVoid()) 


rreturnPoint ) ) ， 


12 
13 
/ /处 理 
ret 是 


*p 情 况 


14 


elsef{ 


Symtab .addInst(new InterInst(OP_RET 


if(ret->isRef())ret=genAssign(ret); 


Symtab .addInst(new InterInst(OP_RETV 


,returnPoint,ret)); 


15 
16 } 


第 2~8 行 为 语义 分 析 的 代码 ， 前 面 已 经 描述 过 。 


第 9 行 取出 函数 对 象 的 returnPoint 字 段 。 


/Areturn 语 句 返 回 


值 与 画 数 返 


回 类 


第 10~11 行 判断 函数 返回 值 变 量 为 void 类 型 ， 因 此 产生 中 间 代 码 指 
令 OP RET。 


第 12~15 行 判断 画 数 具有 返回 值 ， 因 此 产生 中 间 代码 指令 
OP_RETV ° 


其 中 第 13 行 处 理 形 如 “return*p; ”的 返回 语句 ， 在 指针 运算 的 翻译 
中 会 对 此 做 详细 描述 。 


我 们 根据 返回 值 变量 的 类 型 来 决定 return 语 句 的 翻译 结果 ， 这 里 涉 
及 void 类 型 的 返回 值 变量 。 


1 void Parser: :statement 


(){ 

2 switch(look->tag) 

3 

4 Re 

5 case KW_RETURN: 

6 move( ) ; 

7 ir.genReturn 
(altexpr()); // 产 生 
return 语 句 

8 i 

9 break; 

10 

11 

12 } 

13 Var* Parser::altexpr 

(){ . 

14 if (EXPR_FIRST) 

15 return expr(); 
16 return Var::getVoid 
(); / /返回 特殊 
VOid 变 量 


17 } 


根据 statement 子 程序 对 return 语 句 的 处 理 ，genReturn 芳 数 的 参数 为 
altexpr 子 程序 的 返回 值 。 在 altexpr 子 程序 中 ， 对 于 空 表 达 式 返回 void 类 


二 站 
型 变量 。 


3.5.4 ”表达 式 翻 译 


在 高 级 语言 程序 中 ， 程 序 真 正 的 计算 操作 是 由 各 种 表达 式 计算 完 
成 的 ， 因 此 表达 式 可 以 理解 为 程序 计算 的 抽象 。 由 于 表达 式 的 结构 具 
有 相似 性 ， 因 此 表达 式 的 翻译 可 以 分 类 处 理 。 我 们 将 表达 式 分 为 5 类 : 
双 目 运算 表达 式 、 前 绥 单 目 运 算 表 达 式 、 后 绥 单 目 运算 表达 式 、 数 组 
索引 表达 式 和 画 数 调用 表达 式 。 


1. 指 针 运 算 的 处 理 


旨 针 运算 使 表达 式 的 翻译 复杂 化 ， 因 此 在 讨论 其 他 表达 式 的 翻译 
前 ， 我 们 首先 处 理 指 针 运算 表达 式 的 代码 生成 。 


1 Var* GenIR: :genptr 


(Var*val)t{ 
2 if(val->isBase()){ 

3 SEMERROR( EXPR_IS_BASE); / /基本 类 
型 不 能 取 值 


4 return val; 

5 } 

6 Var*tmp=new Var(Symtab ,getScopePath( ) 

7 )Val->getType(),false)， 

8 tmp - >setLeft(true); / /指针 运算 结 
果 为 左 值 

9 tmp->setPointer 

(val); / /设置 指针 变量 

10 symtab.addVar (tmp); 

11 return tmp; 


第 2~5 行 实现 指针 运算 的 语义 分 析 ， 对 于 基本 类 型 的 变量 ， 是 不 
能 进行 指针 运算 的 。 

第 6 行 创建 与 指针 变量 val 的 类 型 相同 的 基本 类 型 变量 tmp 。 

指针 运算 的 结果 可 以 作为 左 值 ， 即 可 以 取 址 或 者 被 赋值 。 因 此 第 8 
行将 tmp 设 置 为 左 值 。 

第 9 行将 指针 变量 val 记 录 到 tmp 的 ptr 字 段 ， 表 示 tmp 变 量 来 源 于 对 
val 变 量 的 指针 运算 结 

第 10~11 行 将 tmp 添 加 到 符号 表 ， 并 返回 。 


我 们 发 现 ， 处 理 指 针 运 算 表 达 式 时 ， 并 未 产生 任何 中 间 代 码 。 这 
征 因 为 指针 运算 的 特殊 性 。 假 设 变量 x 为 int 类 型 的 变量 ，p 为 int 类 型 的 


对 于 语句 1， 我 们 可 以 翻译 为 如 下 中 间 代 码 : 


OP_GET tmp p 
OP_AS x tmp 


中 间 代 码 指令 OP_GET 指 令 将 p 指 针 指 回 的 内 存 中 的 内 容 复 制 到 


tmp， 然 后 OP_AS 将 tmp 的 内 容 复制 到 x 。 


OP_ 


而 对 于 语句 2， 应 该 翻译 为 如 下 中 间 代 码 : 


SET x p 


中 间 代 码 指 


令 OP_SET 将 x 的 值 复制 到 p 指 针 指向 的 内 存 ， 


genPtr 中 产生 的 临时 变量 tmp 无 任何 关系 ! 


而 与 


由 此 ， 我 们 可 以 得 出 一 个 结论 : 如 有 果 将 指针 运算 的 结果 tmp 作 为 
右 值 ， 那 么 可 以 使 用 tmp 参 与 表达 式 的 翻译 ， 如 有 果 tmp 作 为 左 值 使 用 ， 
那么 仍 使 用 原来 的 指针 变量 参与 表达 式 的 翻译 。 


通过 取 址 运算 表达 式 的 翻译 ， 可 以 清晰 地 看 出 这 一 点 


1 Var* GenIR: :genLea 


(Var*val)t{ 
2 


3 
/ /不 能 取 地 址 


() 


} 
if(val- 


) 


及 * p 运 算 


8 
/7/= 


7 
出 变量 的 指针 


e 
般 取 址 运算 


lsef 


J >getLeft( 


)){ 
SEMERROR( EXPR_NOT_LEFT_VAL); 


return val; 


// 类 似 


return val->getPointer(); 


Var* tmp=new Var(symtab.getScopePath() 
,Val->getType(),true); 


// 取 


11 symtab.addVar (tmp); 
12 Symtab .addInst(new InterInst(OP_LEA 


, tmp, val)); 
13 return tmp; 
14 } 

15 } 


第 2~5 行 实现 取 址 运算 的 语义 分 析 ， 不 能 对 非 左 值 变 量 做 取 址 操 
从 


第 6 行 判 断 变 量 val 是 否 是 指针 运算 的 结果 ，isRef 芳 数 表示 变量 对 
象 的 ptr 是 否 有 效 。 如 有 果 val 是 指针 运算 的 结果 ， 则 直接 返回 变量 的 ptr 字 
段 。 


第 8~14 行 处 理 val 是 普通 变量 对 象 的 情况 。 使 用 中 间 代 码 操作 符 
OP_ LEA 将 val 变 量 的 地 址 取出 复制 到 变量 tmp， 并 返回 。 


除了 对 指针 运算 的 结果 进行 取 址 运算 外 ， 其 他 表达 式 运算 也 需 
考虑 操作 数 征 否 是 指针 运算 结果 的 情况 ， 因 为 指针 运算 结 末 变量 与 普 
通 的 基本 类 型 变量 在 运算 特性 上 完全 等 价 。 


1 Var* GenIR: :genAssign 


(Var*val)t{ 
2 


Var*tmp=new Var(symtab.getScopePath(),val); / /复制 变量 信息 
3 symtab.addVar (tmp); 
4 if(val->isRef()) 
5 symtab.addInst(new InterInst(OP_GET 
6 ,tmp,val->getPointer())); 
7 else 
8 symtab.addInst(new InterInst(OP_AS 
;tmp, val)); 
9 return tmp; 


10 } 


我 们 使 用 单 参数 的 genAssign 函 数 处 理 指针 运算 的 结 采 变量 作为 右 
值 的 情况 。 第 3 行 判 断 val 如 果 是 指针 运算 结 有 末 ， 那 么 吏 使 用 OP_GET 指 
令 产生 val 变 量 的 ptr 字 段 到 tmp 的 指针 运算 。 否 则 ， 产 生变 量 val 到 tmp 
的 赋值 运算 。 


1 Var* GenIR: :genAssign 


(Var*]lval,Var*rval)t{ 

2 if(!lval->getLeft())t{ 

3 SEMERROR( EXPR_NOT_LEFT_VAL ) ， 
4 return rval; 

5 } 

6 if(!typeCheck 


(lval,rval))t{ 
7 SEMERROR(ASSIGN_TYPE_ERR); 


8 return rval; 

9 } 

10 if(rval->isRef()) / /处 理 
右 值 

(*p) 

11 rval=genAssign 

(rval); 

12 if(lval->isRef()) / /处 理 
左 什 

(*p) 

13 Symtab .addInst(new InterInst(OP_SET 

14 ,rval,lval->getPointer())); 

15 else 

16 symtab .addInst(new InterInst(OP_AS 


,lval,rval)); 
17 return lval; 
18 } 


和 针 运 滤 结 采 作 为 左 值 被 赋 值 的 情况 由 双 参 数 genAssign 芳 数 处 
理 。 


第 2~5 行 检查 被 赋值 的 变量 十 否 是 左 值 ， 第 6~9 行 使 用 typeCheck 函 
数 检查 赋值 表达 式 的 两 个 操作 数 类 型 是 否 兼 容 。 


第 10~11 行 处 理 赋值 表达 式 的 右 值 rval， 如 果 rval 是 指针 运算 结 
果 ， 则 使 用 单 操 作 数 genAssign 取 出 rval 的 值 。 


第 12~16 行 处 理 赋 值 表达 式 的 左 值 Ival， 如 果 lval 是 指针 运算 结 
果 ， 则 产生 rval 到 lval 的 ptr 的 指针 赋值 运算 。 否 则 ， 产 生 rval 到 lval 的 赋 


函数 typeCheck 的 实现 如 下 : 


1 bool GenIR: :typeCcheck 


(Var*]lval,Var*rval)t{ 
bool flag=false; 


3 if(!rval)return false; 

4 if(lval->isBase()&&rval->isBase()) / /都 是 基本 类 型 

5 flag=true,; 

6 else if(!lval->isBase() && !rval->isBase()) / /都 不 是 基本 类 型 

7 flag=rval->getType()==lval->getType(); // 只 要 求 类 型 相同 
8 return flag; 

9 } 


第 4 行 检 查 两 个 变量 如 果 都 是 基本 类 型 (int 或 char) ， 则 认为 类 型 
兼容 ， 我 们 认为 char 和 int 类 型 的 变量 可 以 默认 转换 。 


第 6~7 行 检查 两 个 变量 如 果 都 不 是 基本 类 型 ， 则 检查 变量 类 型 type 


字段 是 否 相 同 ， 如 果 相 同 则 兼容 。 除 此 之 外 的 情况 ， 变 量 的 类 型 不 兼 


/ 


2. 双 日 运算 表达 式 


表达 
值 表达 式 束 是 双 目 运 
(与 、 或 ) ， 


不 等 于 ) ， 


1 Var 
( 
2 
3 
4 
5 
6 
7 


(lval, 


8 


10 


(lval, 


11 


(lval, 


12 


(lval, 


13 


(lval, 


式 运 算 中 ， 双 目 运算 表达 式 占据 大 多 
其 


数 ， 比 如 前 面 讨论 的 赋 


E 算 表达 式 。 其 他 双 目 运算 表达 式 还 有 逻辑 运算 
关系 运算 (大 于 、 大 于 等 于 、 小 于 、 小 于 等 于 、 等 于 、 


算术 运算 (加 、 减 、 乘 、 除 、 取 模 ) 表达 式 。 对 双 目 运算 
表达 式 的 翻译 实现 如 下 : 


* GenIR: :genTwoOp 


Var*lval,Tag opt,Var*rval)t 


if(!lval || !rval)return NULL; 

if(lval->isVoid()||rval->isVoid()){ 
SEMERROR( EXPR_IS_ VOID); 
return NULL; 

} 

if(opt==ASSIGN)return genAssign 


rval); / /赋值 
if(lval->isRef())lval=genAssign(lval); 
if(rval->isRef())rval=genAssign(rval); 


if(opt==OR)return genor 


rval); / /或 


if(opt==AND)return genAnd 


rval); // 与 


if(opt==EQU)return genEqu 


rval); /7 等 于 


if(opt==NEQU)return genNequ 


rval); / /不 等 于 


/ /处 理 左 值 


/ /处 理 右 值 


14 if(opt==ADD)return genAdd 


(lval,rval); // 加 

15 if(opt==SUB)return genSub 
(lval,rval); // 减 

16 if(!lval->isBase() || !rval->isBase()) 
17 { 

18 SEMERROR( EXPR_NOT_BASE ) ， 

19 return lval; 

20 } 

21 if(opt==GT)return genGt 

(lval,rval); // 大 于 
22 if(opt==GE)return genGe 

(lval,rval); // 大 于 等 于 
23 if(opt==LT)return genLt 

(lval,rval); 77 涉 于 
24 if(opt==LE)return genLe 

(lval,rval); /Y/Y 小 于 等 于 
25 if(opt==MUL)return genMul 
(lval,rval); // 乘 

26 if(opt==DIV)return genDiv 
(lval,rval); // 除 

27 if(opt==MOD)return genMod 
(lval,rval); // 取 模 
28 return lval; 

29 } 


第 3~6 行 处 理 表 达 式 操作 数 为 void 类 型 变量 的 情况 。 


第 7 行 单独 处 理 赋值 运算 表达 式 ， 从 前 面 讨论 的 genAssign 的 实现 
中 可 以 看 出 ， 当 被 赋值 的 变量 是 指针 运算 结果 时 ， 需 要 使 用 OP_SET 
指令 实现 代码 翻译 。 


第 8~9 行 处 理 操作 数 为 指针 运算 结果 的 情况 ， 使 用 单 参 数 的 
genAssign 了 芳 数 将 指针 运算 结果 取出 。 


第 10~15 行 处 理 非 基 本 类 型 可 以 参与 的 运算 ， 包 括 或 、 与 、 等 
于 、 不 等 于 、 加 和 减 运算 。 第 21~27 行 处 理 只 有 基本 类 型 可 以 参与 的 
运算 ， 包 括 大 于 、 大 于 等 于 、 小 于 、 小 于 等 于 、 乘 和 除 运 算 。 基 本 类 
型 只 能 是 int 或 char 类 型 ， 除 此 之 外 的 变量 都 是 非 基 本 类 型 ， 比 如 int*、 


char[] 等 。 


在 除了 赋值 运算 表达 式 的 其 他 双 目 运 滤 表达 式 中 ， 加 法 运算 和 减 
法 运算 表达 式 的 翻译 较为 特殊 。 


1 Var* GenIR::genAdd 
(Var*]lval,Var*rval) 
{ 


Varx*tmp=NULL 
If(!1LVal->isBase()&&rval->isBase()){ 
tmp=new Var(symtab.getScopePath(),1val); 
rval=genMul 


OOND 


(rval,Var::getSstep 


(lval)); 

7 

8 else if(lval->isBase()&&!rval->isBase()){ 

9 tmp=new Var(symtab.getScopePath(),rval); 
10 lval=genMul 


(lval,Var: :getStep 


(rval)); 
11 


12 else if(lval->isBase( )&&rval->isBase( )) 

13 tmp=new Var(Symtab .getScopePath( ),，KwW_INT,false) ， 
14 elsef{ 

15 SEMERROR( EXPR_NOT_BASE ) ， 

16 return lval; 

17 } 

18 symtab.addVar (tmp); 

19 Symtab .addInst(new InterInst(OP_ADD 


;tmp, lval,rval)); 
20 return tmp; 
21 } 


第 4~7 行 处 理 非 基 本 类 型 操作 数 加 上 基本 类 型 操作 数 的 情况 。 例 
如 指针 变量 inttp， 在 计算 “p+1” 时 ， 实 际 的 计算 为 “p+1*sizeof 
(int) ”， 因 此 通过 调用 乘法 运算 的 翻译 函数 genMul 将 rval 修 改 为 实际 
过 加 的 值 。 


第 8~11 行 处 理 与 “p+1” 相 似 的 情况 “1+p”， 同 样 的 需要 通过 调用 乘 
法 运算 翻译 函数 genMul 将 lval 修 改 为 实际 累加 的 值 。 


第 12~13 行 处 理 基本 类 型 的 操作 数 相 加 的 情况 。 


第 14~17 行 处 理 两 个 非 基 本 类 型 的 操作 数 相 加 ， 这 种 运算 不 合 
法 ， 报 告 语义 错误 。 


第 19 行 ， 将 加 法 运算 翻译 为 OP_ADD 指 令 表 达 式 。 
变量 对 象 的 getStep 函 数 用 于 计算 对 变量 加 1 操作 时 的 实际 累加 值 。 


1 Var* Var::getstep 


(Var*v){ 
2 if(v->isBase())return SymTab: :one 


了 


3 else if(v->type==KW_CHAR)return SymTab : :one 


4 else if(v->type==KW_INT)return SymTab : :four 


OO Ol~-: 


else return NULL ， 


第 2 行 处 理 基本 类 型 操作 数 的 加 1 运算 ， 实 际 素 加 值 仍 为 1。 


第 3 行 处 理 char* 或 char[] 类 型 操作 数 的 加 1 运算 ， 实 际 票 加 值 也 是 


第 4 行 处 理 int* 或 int] 类 型 操作 数 的 加 1 运算 ， 实 际 累加 值 为 4。 


减法 运算 表达 式 的 翻译 与 加 法 类 似 ， 不 过 限制 更 多 。 


1 Var* GenIR: :genSub 


(Var*]lval,Var*rval)t{ 


2 Var*tmp=NULL; 

3 if(!rval->isBase()) 

4 { 

5 SEMERROR( EXPR_NOT_BASE ) ， 

6 return lval; 

7 } 

8 if(!lval->isBase()){ 

9 tmp=new Var(symtab.getScopePath(),1val); 
10 rval=genMul 


(rval,Var::getSstep 


(lval)); 

11 } 

12 else 

13 tmp=new Var(symtab.getScopePath(),Kw_INT,false); 
14 symtab.addVar (tmp); 

15 Symtab ,addInst(new InterInst(OP_SU 


B, tmp, lval, rval)); 
16 return tmp; 


在 加 法 运算 中 ， 对 于 指针 变量 int*p， 可 以 执行 “p+1” 或 1+p” 的 操 
作 。 而 减法 运算 中 “1-p” 的 操作 是 非法 的 。 


第 3~7 行 处 理 rval 不 是 基本 类 型 的 语义 错误 。 


第 8~11 行 处 理 lval 不 是 基本 类 型 的 情况 ， 将 rval 修 正 为 实际 的 素 加 
值 。 


第 12~13 行 处 理 基本 类 型 操作 数 的 减法 运算 。 


第 15 行 将 减法 运算 表达 式 翻译 为 OP_SUB 指 令 。 


除了 已 经 讨论 的 赋值 运算 、 加 法 运算 和 减法 运算 表达 式 ， 其 他 的 
双 目 运算 表达 式 的 翻译 形式 完全 相同 ， 比 如 乘法 运算 表达 式 。 


1 Var* GenIR: :genMul 


(Var*]lval,Var*rval)t{ 

2 Var*tmp=new Var(symtab.getScopePath(),kKw_INT,false); 
3 symtab.addVar (tmp); 

4 symtab.addInst(new InterInst(OP_MUL 


;tmp, lval,rval)); 
5 return tmp; 
6 } 


对 于 其 他 双 目 运算 表达 式 的 实现 ， 只 是 在 创建 InterInst 对 象 时 传递 
的 操作 符 不 同 。 由 于 自 定义 语言 中 的 基本 类 型 只 有 int 和 char， 因 此 经 
过 表达 式 运算 后 ， 如 果 运算 结果 仍 为 基本 类 型 ， 一 般 我 们 都 会 使 用 int 
类 型 作为 默认 类 型 。 


3. 前 绥 单 目 运算 表达 式 


前 绥 单 目 运算 表达 式 包 括 取 址 ， 指 针 运 算 表 达 式 ， 前 绥 目 加 、 目 
减 表 达 式 ， 逻 辑 非 运算 和 取 仙 运算 表达 式 。 对 单 目 运算 表达 式 的 翻译 
实现 如 下 : 


1 Var* GenIR: :genOoneOpLeft 


(Tag opt,Var*val)t{ 

2 if(!val)return NULL 

3 if(val->isVoid()){ 

4 SEMERROR( EXPR_IS_ VOID); 
5 return NULL; 

6 
7 


} 
if(opt==LEA)return genLea 


(val); // 取 址 
8 if(opt==MUL)return genPtr 
(val); // 指 针 
9 if(opt==INC)return genIncL 
(val); // 自 加 
10 if(opt==DEC)return genDecL 
(val); // 自 减 
11 if(val->isRef())val=genAssign(val); // 处 理 
(*p) 

12 if(opt==NOT)return genNot 
(val); // 非 
13 if(opt==SUB)return genMinus 
(val); // 取 负 

14 return val,; 


15 } 


第 3~6 行 处 理 表 达 式 操作 数 为 void 类 型 变量 的 情况 。 


第 7~8 行 处 理 取 址 和 指针 运算 表达 式 ， 前 面 已 经 讨论 过 取 址 和 指 
针 运 算 表达 式 的 翻译 。 


第 9~10 行 处 理 前 纵 目 加 和 目 减 运算 表达 式 。 


第 12~13 行 处 理 逻 辑 非 运算 和 取 仙 运算 表达 式 ， 这 两 种 表达 式 运 
算 的 操作 数 是 右 值 ， 因 此 第 11 行 使 用 单 参数 的 genAssign 函 数 将 可 能 的 
指针 运算 结果 取出 。 


前 绥 目 加 和 目 减 运算 表达 式 的 操作 数 是 左 值 ， 因 此 可 能 是 指针 运 
算 的 结 采 。 前 级 目 加 运算 表达 式 的 翻译 如 下 : 


1 Var* GenIR: :genIncL 


(Var*val)t{ 
2 if(!val->getLeft())t{ 
3 SEMERROR( EXPR_NOT_LEFT_VAL ) ， 
4 return val; 
5 } 
6 if(val->isRef()){ 
//++*p 
7 Var* t1i=genAssign 
(val); //t1i=*p 
8 Var* t2=genAdd 
(a Var::getstep(val)); //t2=t1+1 
genAssign 
(val, t2); //*p=t2 
10 
11 else 
12 symtab.addIinst(new InterInst(OP_ADD 
了 
13 val,val,Vvar::getStep(val))); //++val 
14 return val; 


第 2~5 行 产生 操作 数 不 是 左 值 的 语义 错误 。 


第 6~10 行 处 理 操作 数 是 指针 运算 结果 的 情况 。 例 如 指针 变量 
intrp， 对 于 表达 式 “++*p” 的 中 间 代码 翻译 结果 应 该 如 下 : 


OP_GET ti1 p //t1=*p 
OP_ADD t2 t1 1 //t2=t1+1 
OP_SET t2 p //*p=t2 


即 首 先 使 用 处 理 指针 运算 结果 val， 使 用 单 操作 数 genAssign 将 值 取 
出 到 t1。 然 后 使 用 genAdd 对 t1 进 行 加 1 操作 ， 结 果 保 存 到 t2。 最 后 使 用 
双 参 数 的 genAssign 函 数 将 刀 赋 值 到 指针 运算 结果 val。 


第 11~13 行 处 理 一 般 变 量 的 加 1 操作 ， 其 中 运算 结 末 和 第 一 个 操作 
数 都 是 val， 第 二 个 操作 数 是 通过 getStep 计 算 的 val 实 际 素 加 值 。 


前 级 自 减 运算 表达 式 的 翻译 和 前 级 自 加 运算 表达 式 相似 ， 只 需要 
将 第 8 行 的 genAdd 替 换 为 genSub， 将 第 12 行 的 操作 符 替 换 为 OP_SUB。 


逻辑 非 运算 和 取 负 运算 表达 式 的 翻译 比较 简单 ， 不 过 取 负 运算 操 
作 数 限定 为 基本 类 型 。 


1 Var* GenIR: :genMinus 


(Var*val)t{ 

if(!val->isBase())t{ 
SEMERROR( EXPR_NOT_BASE ) ， 
return val; 


} 

Var*tmp=new Var(symtab.getScopePath(),kKw_INT,false); 
symtab.addVar (tmp); 

Symtab .addInst(new InterInst(OP_NEG 


co ~LIODOO 上 上 


tmp, val) ) 
9 


10 


4. 后 


return tmp; 


上 


第 2~5 行 处 理 操 作 数 不 是 基本 类 型 的 语义 错误 。 


第 8 行使 用 操作 符 OP_ NEG 产 生 取 负 运 算 表 达 式 中 间 指 令 。 


级 单 日 运算 表达 式 


我 们 实现 的 后 缀 单 目 运算 表达 式 只 有 两 种 : 


运算 表达 式 ， 因 此 实现 比较 简单 。 


1 


Var* GenIR: :genOneOpRight 


(Var*val,Tag opt){ 

2 if(!val)return NULL; 

3 if(val->isVoid()) 

4 SEMERROR( EXPR_IS_ VOID); 
5 return NULL; 

6 } 

7 if(!val->getLeft())t{ 

8 SEMERROR( EXPR_NOT_LEFT_VAL ) ， 
9 return val; 

10 

11 if(opt==INC)return genIncR 
(val); // 右 自 加 语句 

12 if(opt==DEC)return genDecR 
(val); // 右 自 减 语句 

13 return val,; 

14 } 


第 3~6 行 处 理 操 作 数 为 void 变 量 的 情况 。 


第 7~10 行 处 理 操作 数 不 是 左 值 的 情况 。 


后 级 目 加 和 后 缀 目 减 


第 11~12 行 进行 后 绥 目 加 、 目 诚 运 算 表 达 式 的 翻译 。 


后 组 目 加 、 目 城 运算 表达 式 翻 译 也 需要 指针 运算 的 结 有 末 ， 后 组 目 
加 运算 表达 式 的 翻译 如 下 : 


1 Var* GenIR::genIncR 


(Var*val)t{ 

2 Var*tmp=genAssign 

(val); / /复制 ， 

tmp=val 

3 if(val->isRef()){ //(*p )++ 情 况 


=> t1=*p t2=t1+1 *p=t2 
4 Var* t2=genAdd 


:getStep(val) ) //t2=tmp+1 
genAssign 
(val, t2); //*p=t2 
6 } 
7 else 
8 symtab.addIinst(new InterInst(OP_ADD 
9 ,Val,val,Var::getstep(val))); 
//val=val+1 
10 return tmp; 
11 } 


后 绥 目 加 运算 表达 陈 翻译 与 前 绥 目 加 运算 表达 式 的 翻译 非常 相 
似 ， 只 不 过 第 2 行 对 单 参 数 genAssign 范 数 的 调用 是 无 条 件 的 ， 即 必须 
做 一 次 将 val 变 量 的 值 复制 到 tmp 中 ， 并 且 返 回 值 是 mp 而 非 val。 这 正 
征 为 了 满足 后 组 目 加 运算 是 移 返 回 哥 作 数 结果 ， 再 进行 目 加 运算 的 特 


后 级 目 减 运算 表达 式 翻 译 与 后 级 目 加 运算 表达 式 翻 译 的 形式 相 
同 ， 只 需要 将 第 4 行 的 genAdd 巷 换 为 genSub， 将 第 8 行 的 操作 符 


OP_ADD 和 替换 为 OP_ SUB 。 


5. 数 组 索引 运算 表达 式 


对 于 数组 索引 运算 表达 式 ， 我 们 将 之 转化 为 指针 运算 处 理 。 例 如 
数组 索引 运算 表达 式 “a[ij”*"， 转 化 为 指针 运算 形式 为 “* (ati) ”。 即 首 
先 执行 数组 名 a 与 索引 i 的 加 法 操作 ， 结 采 保 存 到 tmp。 然 后 执行 对 tmp 
的 指针 运算 操作 。 实 现代 码 如 下 : 


1 Var* GenIR::genArray 


(Var*array,Var*index){ 
if(!array || !index)return NULL; 


3 if(array->isVoid()||index- >isVoid())f 

4 SEMERROR( EXPR_IS_ VOID); 

5 return NULL ， 

6 } 

7 Je >isBase() || J >isBase()){ 
8 SEMERROR(ARR_TYPE_ERR ) ， 

9 return index; 

10 

11 return genPtr 

(genAdd 


(array, index)); 
12 } 


第 3~6 行 处 理 数 组 变量 和 索引 变量 为 void 类 型 的 语义 错误 。 


第 7~10 行 表示 数组 变量 为 基本 类 型 ， 或 索引 变量 为 非 基本 类 型 
时 ， 报告 语义 义 错误 9 


第 11 行 产生 数组 索引 运算 表达 式 的 中 间 代 码 ， 即 首先 调用 genAdd 
玉 数 执行 数组 与 寄 引 的 加 法 ， 然 后 调用 genPtr 函 数 进行 指针 运算 控 


作 。 
6. 函 数 调 用 表达 式 
函数 调用 表达 式 的 翻译 分 为 两 个 部 分 : 传递 参数 和 函数 调用 。 


在 设计 中 间 代 码 时 ， 操 作 符 OP_ARG 表 示 实 际 参数 入 栈 操作 。 对 
每 个 实际 参数 ， 我 们 使 用 genPara 函 数 生成 入 栈 的 中 间 代 码 指令 。 


1 void GenIR: :genPara 


(Var*arg){ 

2 if(arg->isRef())arg=genAssign(arg); 

3 InterInst*argInst=new InterInst(OP_ARG 
,arg); 

4 symtab.addInst(argInst); 

5 } 


第 2 行 处 理 参 数 变 量 为 指针 运算 结果 的 情况 。 
第 3 行 生 成 OP_ARG 中 间 代 码 指 令 ， 用 于 将 arg 压 栈 。 
函数 调用 表达 式 翻 译 的 实现 代码 如 下 : 


1 Var* GenIR: :genCall 


(Fun*function,vector<Var*>& args){ 
2 if(!function)return NULL; 


3 for(int i=args.size()-1;i>=0;i--){ / /逆向 传递 实际 参数 
4 genPara 

Sargs[ 

6 if(function->getType()==KW_VOID){ 

7 symtab.addIinst(new InterInst(OP_PROC 


;function)); 


8 return Var: :getVoid() ， // 返 区 


VOid 特 殊 变 量 

9 } 

10 elsef{ 

11 Var*ret=new Var(Symtab .getScopePath() 
12 ,function->getType(),false); 
13 Symtab .addInst(new InterInst(OP_CALL 


;function, ret)); 
14 symtab.addVar (ret); 
15 return ret; 

16 } 

17 } 


第 3~5 行 按照 C 语 言 参数 从 右 回 左 的 入 栈 规则 生成 参数 入 栈 指令 


第 6~9 行 处 理 无 返回 值 (void) 画 数 调用 ， 生 成 OP_PROC 画 数 调 
用 指令 ， 并 返回 void 变 量 标识 画 数 的 返回 类 型 。 


第 10~16 行 处 理 有 返回 值 函 数 调 用 ， 生 成 OP_CALL 函 数 调用 指 
令 ， 并 返回 函数 调用 结果 变量 ret 。 


3.5.5 ”复合 语句 与 break、continue 语 句 翻译 


在 高 级 语言 程序 中 ， 如 有 果 说 表达 式 是 程序 计算 的 抽象 ， 那 么 语句 
便 是 程序 控制 的 抽象 ， 因 为 程序 的 控制 逻辑 通过 语句 来 表达 。 我 们 将 
语句 分 为 三 类 : 分 文 语句 、 循 环 语句 和 break 、continue 语 句 。 站 在 计算 
机 机 顺 语 言 角度 ， 程 序 的 执行 无 外 乎 两 种 形式 : 顺序 和 跳 转 。 反映 在 
程序 计数 器 pc 上 便 是 取 下 一 条 指令 执行 ， 或 者 跳 转 到 目标 地 址 取 指 执 
行 。 一 般 的 ,不 考虑 使 用 goto 语 句 的 情况 下 ， 如 果 是 顺 着 程序 执行 流 的 
方向 跳 较 ， 则 表现 为 高 级 语言 的 分 文 语句 ， 如 采 逆 着 程序 执行 流 的 方 
向 跳 转 ， 则 表现 为 高 级 语言 的 循环 语句 。 因 此 ， 对 语句 的 代码 生成 需 
要 明确 跳 转 指令 和 目标 标签 的 位 置 。 


1.if-else、switch-case 分 支 语 句 


高 级 语言 中 最 常用 的 分 文 语句 应 该 是 if-else 语 句 ， 其 基本 形式 为 : 


if(cond)t{ 

//do true 
}elsef{ 

//do false 


将 其 翻 详 为 中 间 代 码 形式 为 : 


//do cond 
OP_JF cond _else 


//if(!cond)goto _else 


//do true 
OP_JMP _exit 


//goto _exit_else: 


//do false exit: 


如 果 if-else 语 句 中 只 包含 if 部 分 ， 而 没有 else 部 分 : 


if(cond)t{ 
//do true 
} 


则 翻译 为 中 间 代 码 形式 为 : 


//do cond 
OP_JF cond _else 


//if(!cond)goto _else 
//do true_else: 


注释 的 do cond 部 分 处 理 条 件 表达 式 ，do true 和 do false 部 分 为 if-else 
分 支 语句 的 内 部 实现 代码 ， 将 其 抽出 剩 下 的 便 是 让 else 分 支 语句 的 实现 
框架 ， 包 括 四 个 部 分 : 


1) if 首部 : 产生 目标 标签 为 _else 的 OP_JF 指 令 。 


2) else 首 部 : 产生 目标 标签 为 _exit 的 无 条 件 跳 转 指令 OP_JMP 和 标 


签 else。 


3) else 尾 部 : 产生 _exit 标 签 。 


4) 证 尾部 : 当 不 存在 else 语 句 时 ， 产 生 _else 标 签 。 


对 if-else 分 文 语 句 的 代码 生成 的 实现 如 下 : 


1 void Parser::ifstat 


()t 

2 symtab.enter(); 

3 InterIinst* else,* exit; / /标签 
4 match(Kw_IF); 

5 if(!match(LPAREN)) 

6 recovery (EXPR_FIRST, LPAREN_LOST, LPAREN_WRONG ) ， 
7 Var*cond=expr(); 

8 ir.genIfHead 

(cond,_else); //if 头 部 

9 if(!match(RPAREN) ) 

10 recovery(F(LBRACE),RPAREN_LOST, RPAREN_ WRONG); 
11 block(); 

12 symtab. leave( ); 

13 if(F(KW_ELSE) ){ 

// 有 

else 

14 ir.genElseHead 

(_else,_ exit); //else 头 部 

15 elsestat(); 

16 ir.genElseTail 

(_exit); //else 尾 部 

17 } 

18 elsef 

// 无 

else 

19 ir.genIfTail 

(_else); 

20 } 

21 } 


22 void GenIR: :genIfHead 


(Var*cond,InterInst*& else){ 


23 _else=new InterInst()， // 产 生 
elSse 标 签 

24 if(cond)t{ 

25 if(cond->isRef())cond=genAssign(cond); 


26 symtab.addInst(new InterInst(OP_JF 


;_else, cond)); 
7 } 


28 } 
29 void GenIR: :genIfTail 


(InterIinst*& _else){ 
30 symtab.addInst(_else 


32 void GenIR: :genElseHead 


(InterInst* _else,InterIinst*& _exit){ 
33 _exit=new InterInst(); // 产 生 


e@Xit 标 签 


34 symtab.addInst(new InterInst(OP_JMP 


,_exit)); 
35 symtab.addInst(_else 


37 void GenIR: :genElseTail 


(InterInSst*& _exit)f{ 
38 symtab.addInst(_exit 


); 
39 } 


代码 第 1~22 行 为 ifstat 递 归 下 降 子 程序 的 实现 代码 ， 第 23~39 行 为 if 


首部 、else 首 部 、else 尾 部 、if 尾 部 的 代码 生成 实现 。 


第 8 行 在 条 件 表达 式 计算 完毕 后 ， 调 用 genIfHead 人 处 理 if 首 部 ， 在 第 


26 行 生成 目标 标签 为 _else 的 OP_JF 指 令 


第 18~20 行 在 不 存在 else 时 ， 调 用 genIfTail 处 理 if 尾 部 ， 在 第 30 行 生 


成 else 标 签 。 


第 14 行 调用 genElseHead 处 理 else 首 部 ， 第 34~35 行 生成 OP_JMP 指 


邻 日 标 标签 为 exit， 以 及 _else 标 签 。 


第 16 行 调用 genElseTail 处 理 else 尾 部 ， 第 38 行 生成 _exit 标 签 。 


标签 对 象 的 创建 是 使 用 无 参 构 造 画 数 InterInst， 即 调用 genLb 和 后 成 
一 个 唯一 的 标签 名 称 ， 将 之 保存 在 InterInst 的 label 变 量 内 。 


1 string GenIR::genLb 


lbNum++; 

string 1b="@L",; 
stringstream ss; 
ss<<lbNum; 

return lb+ss.str(); 


~IODOUA 上 whP 一 


函数 genLb 的 实现 很 商 单 ， 束 是 使 用 字符 串 “@L?” 后 紧 跟 一 个 全 局 
唯一 的 编号 IbNum。 


switch-case 分 文 语句 是 男 一 种 第 见 的 分 文 语句 ， 其 基本 形式 为 : 


switch(cond){ 

case 1b_1: //do 
lb 1 

case 1b_2: //do 
lb 2 

default: //do 
default 
} 


将 其 翻 详 为 中 间 代 码 形式 为 : 


//do cond 
OP_JNE exit 1 lb 1 cond 


//if(l1b_1!=cond)goto exit_ 1 
//do lb 1exit_ 1: 


OP_JNE exit 2 1b_2 cond 
//if(l1b_2!=cond)goto exit_ 2 
//do 1b_2 


exit_2: 


//do default exit: 


其 中 ， 标 签 _exit 是 switch-case 的 出 口 标签 。 实 际 case 语 句 内 不 会 产 
生 到 _exit 的 跳 转 ， 那 么 最 终 的 default 语 句 总 是 无 条 件 执 行 。 因 此 ， 党 使 
用 break 语 句 强制 退出 一 个 case 语 句 ， 即 生成 到 _exit 标 签 的 跳 转 ， 比 
如 : 


switch(cond){ 
case 1b_1: //do 
lb 1 
break; 
case 1b_2: //do 
lb 2 
break; 
default: //do 
default 
} 


将 其 翻 详 为 中 间 代 码 形式 为 : 


//do cond 
OP_JNE exit 1 lb 1 condition 


//if(1lb_1!=cond)goto exit_1 
//do 1b_1 
OP_JMP _exit //goto 
_exitexit_1: 


OP_JNE exit_ 2 1b_2 condition //if(1b_2!=cond)goto 
exit_2 

//do 1b_2 

OP_JMP _exit //goto 


_exitexit_ 2: 


//do default exit: 


这 样 每 一 个 case 语 句 便 可 以 独立 执行 了 ， 当 所 有 case 语 句 都 无 法 执 
行 时 ， 便 执行 default 语 句 ， 这 与 C 语 言 的 Switch-case 语 名 的 语义 一 致 。 
同样 的 ， 我 们 将 switch-case 语 句 框 架 分 为 四 个 部 分 : 


1) switch 首 部 : 本身 不 生成 代码 ， 但 需要 创建 出 口 标签 _exit 指 令 
对 象 ， 并 保存 _exit， 为 其 内 部 可 能 出 现 的 break 语 句 的 代码 生成 提供 跳 


转 标 签 信息 。 


2) case 首 部 : 生成 跳 转 到 _case_exit 的 条 件 跳 转 指令 OP JNE， 条 
件 比 较 操 作 数 是 case 的 常量 标签 lb_* 和 cond 表 达 式 的 结果 。 


3) case 尾 部 : 生成 case 的 退出 标签 case_exit 。 
4) Switch 尾部: 生成 switch 语 名 的 退出 标签 exit 。 
switch-case 分 文 语句 的 代码 生成 的 实现 如 下 : 


1 Vvoid Parser: :Switchstat 


2 symtab.enter(); 

3 InterIinst*_ exit; 

/ /标签 

4 ir.genSswitchHead 

(_exit); //Switch 头 部 
5 match(Kw_SwITCH); 

6 if(!match(LPAREN)) 

7 recovery (EXPR_FIRST, LPAREN_LOST, LPAREN_WRONG ) ， 
8 Var*cond=expr(); 

9 if(cond->isRef())cond=ir.genAssign(cond); 

10 if(!match(RPAREN)) 

11 recovery(F(LBRACE), RPAREN_LOST, RPAREN_ WRONG); 
12 if(!match(LBRACE)) 


13 recovery(F(KW_CASE)_(KW_DEFAULT), 


14 LBRACE_LOST, LBRACE_WRONG ) ， 


15 casestat(cond); 

16 if(!match(RBRACE)) 

17 recovery(TYPE_FIRST| |STATEMENT_FIRST, 

18 RBRACE_LOST, RBRACE_WRONG); 

19 ir.genSwitchTail 

(_exit); //switch 
20 symtab. leave( ); 

21 } 

22 void Parser::casestat 

(Var*cond ){ 

23 if(match(KW_CASE) ){ 

24 InterInst*_ case_exit， 

标签 

25 Var*1lb=caselabel(); 

26 ir.genCaseHead 

(cond,1b,_case_exit),; /V/case 头 部 

27 if(!match(COLON)) 

28 recovery(TYPE_FIRST| |STATEMENT_FIRST, 
29 COLON_LOST, COLON_WRONG ) 
30 symtab.enter(); 

31 subprogram( ); 

32 symtab. leave( ) ; 

33 ir.genCcaseTail 

(_case_exit); //CaSe 尾 部 
34 casestat(cond); 

35 } 

36 else if(match(KwW_DEFAULT))E{ 

//default 默 认 执 行 

37 if(!match(COLON)) 

38 recovery(TYPE_FIRST| |STATEMENT_FIRST, 
39 COLON_LOST, COLON_ WRONG ) ， 
40 symtab.enter(); 

41 subprogram( ); 

42 symtab. leave( ) ; 

43 

44 } 


45 void GenIR: :genSwitchHead 


(InterInSst*& _exit)f{ 
46 _exit=new InterInst(); 
// 产 生 


e@Xit 标 签 


47 push(NULL,_exit); 
/ /不 允许 


continue 
48 } 
49 void GenIR::genSwitchTail 


Els 


// 


(InterInst* _exit){ 


50 Symtab ,addInSst(_exit 

); // 添 加 
eXit 标 签 

51 pop(); 

52 } 


53 void GenIR: :genCaseHead 


(Var*cond,Var*1b, 


54 InterInst*& _case exit)f{ 

55 _case exit=new InterInst()， V7 产 
CasSe 的 

eXit 标 签 

56 if(lb)symtab.addInst(new InterInst(OP_JNE 

a 9 

57 _case_exit,cond, 1b)); 

58 } 


59 void GenIR: :genCaseTail 


(InterIinst* _case exit)f{ 
60 symtab.addInst(_case_ exit 


); // 添 加 
CaSe 的 


e@Xit 标 签 


61 } 


第 1~21 行 为 switchstat 递 归 下 降 子 程序 的 实现 ， 第 22~44 行 为 casestat 
递归 下 降 子 程序 的 实现 。 第 45~61 行 实现 了 switch 首 部 、case 首 部 、case 
尾部 、switch 尾 部 的 代码 生成 。 


第 4 行 调用 genSwitchHead 处 理 switch 语 名 首部。 第 46~47 行 创建 
_exit 标 签 指令 对 象 并 使 用 push 函 数 保 存 。push 与 pop 函 数 与 break、 
continue 语 句 的 翻译 相关 ， 后 面 会 详细 描述 。 


第 19 行 调用 genSwitchTail 处 理 switch 语 名 尾部， 第 50 行 生成 _exit 标 
和 o 


YY/ 


第 26 行 调用 genCaseHead 处 理 case 语 句 首 部 ， 第 56~57 行 生成 目标 标 
签 为 case_exit 的 OP_ JNE 指 令 。 


第 33 行 调用 genCaseTail 处 理 case 语 句 尾 部 ， 第 60 行 添加 _case_exit 标 
和 o 


2.while、do-while、for 循 环 语句 


while 人 循环 语句 的 基本 形式 为 : 


while(cond){ 
//do loop 


将 其 翻 详 为 中 间 代 码 形式 为 : 


_while: 


//do cond 
OP_JF cond _exit 


//if(!cond)goto _exit 
//do loop 
OP_JMP _while 


//goto _while exit: 


while 循 环 语句 的 实现 框架 包括 三 个 部 分 。 


1) while 首 部 : 创建 循环 入 口 标签 while 和 循环 出 口 标签 exit 的 指 
令 对 象 并 保存 ， 为 break 和 continue 语 句 代 码 生 成 提供 跳 转 标签 信息 。 


2) while 条 件 : 处 理 循 环 条 件 ， 尤 其 是 空 循环 条 件 。 生 成 目标 标签 
为 _exit 的 OP_JF 指 令 。 循 环 条 件 表达 式 的 计算 必须 在 循环 内 部 处 理 ， 即 
在 标签 _while 之 后 ， 因 为 每 次 循环 需要 重新 计算 循环 表达 式 的 值 。 


3) while 尾 部 : 产生 目标 标签 为 _-while 的 OP_JMP 指 令 ， 并 添加 标 


答 exit 。 


对 while 循 环 语句 的 代码 生成 的 实现 如 下 : 


1 void Parser::whilestat 


()t 

2 symtab.enter(); 

3 InterIinst* while,* exit; / /标签 
4 ir.genwhileHead 

(_while,_exit); //While 循 环 头 部 

5 match(KW_WHILE) ， 

6 if(!match(LPAREN)) 

7 recovery(EXPR_FIRST| |F(RPAREN), 

8 LPAREN_LOST, LPAREN_ WRONG ) ， 

9 Var*cond=altexpr(); 

10 ir.genwhileCond 

(cond,_exit); //wWhile 条 件 

11 if(!match(RPAREN)) 

12 recovery(F(LBRACE),RPAREN_LOST, RPAREN_ WRONG); 
13 block( ); 

14 ir.genwhileTail 

(_while,_exit); //wWhile 尾 部 

15 symtab.leave( ); 

16 } 


17 void GenIR: :genwhileHead 


(InterInst*& _while, 
18 InterInst*& _exit){ 
19 _while=new InterInst(); // 产 生 


while 标 签 


20 symtab.addInst(_while 
)” // 添 加 


while 标 签 


21 _exit=new InterInst(); // 产 生 


22 push(_while，exit)， // 进 
入 


while 
23 } 
24 void GenIR: :genwhileCond 


(Var*cond,InterInst* exit){ 


25 if(cond ){ 

26 if(cond->isVoid())cond=Var::getTrue(); / /处 理 空 表达 式 
27 else if(cond->isRef())cond=genAssign(cond); 

28 symtab.addInst(new InterInst(OP_JF 

;_exit, cond)); 

29 

30 } 


31 void GenIR: :genwhileTail 

(InterIinst*& _while, 

32 InterInst*& _exit){ 

33 Symtab ,addInst(new InterInst(OP_JMP 


7 while))， 
34 symtab.addInst(_exit 


); / /添加 
e@Xit 标 签 

35 pop(); 

/ /离开 


while 
36 } 


代码 第 1~16 行 为 whilestat 递 归 下 降 子 程序 的 实现 代码 ， 第 11~36 行 
为 while 首 部 、while 条 件 、while 尾 部 的 代码 生成 实现 。 


第 4 行 调用 genWhileHead 处 理 while 循 环 首部 。 第 19~21 创 建 _while 
和 _exit 标 签 指 令 对 象 。 并 添加 _while 标 签 。 


第 10 行 在 while 人 循环 表达 式 处 理 完毕 后 ， 调 用 genWhileCond 处 理 循 
环 条 件 。 第 26 行 当 cond 为 void 变量 则 调用 getTrue， 返 回 常 量 1。 第 28 行 
根据 循环 条 件 生成 目标 标签 为 _ exit 的 OP_JF 指 令 。 


第 14 行 调用 genWhileTail 处 理 while 循 环 尾部 。 第 33~34 行 生成 


OP_JMP 指 令 ， 添 加 _exit 标 签 。 
do-while 循 环 语句 的 基本 形式 为 : 


dof{ 
//do loop 
}while(cond ) ， 


将 其 翻译 为 中 间 代码 形 却 为 : 


//do loop 
//do cond 
OP_JF cond _do 


//if(cond)goto _do_exit: 


do-while 循 环 语句 的 实现 框架 包括 两 个 部 分 。 


1) do-while 首 部 : 创建 循环 入 口 标签 
令 对 象 ， 并 保存 ， 
并 添加 _do 标 签 


2) do-while 尾 部 : 处 理 循 环 条 件 ， 尤 其 
标签 为 _do 的 OP_JT 指 令 ， 并 添加 标签 _exit 
须 在 循环 内 部 处 理 ， 因 为 每 次 循环 需 


为 break 和 continue 语 句 代 码 生 成 提供 条 件 标 签 


要 重新 计算 循环 表达 


_do 和 循环 出 口 标签 exit 的 指 


言 局 、 


其 是 至 循环 条 件 。 产 生 目 标 
。 循环 条 件 表达 式 的 计算 必 
人 六 的 什 。 


对 do-while 循 环 语句 的 代码 生成 的 实现 如 下 : 


1 Vvoid Parser : 


:dowhilestat 


()t 

2 symtab.enter(); 

3 InterIinst* do,* exit; / /标签 
4 ir.genDowhileHead 

(_do,_exit); /V/do-while 头 部 

5 match(KW_DO ) ， 

6 block(); 

7 if(!match(KW_WHILE)) 

8 recovery(F(LPAREN),WHILE_LOST,WHILE_ WRONG); 

9 if(!match(LPAREN)) 

10 recovery(EXPR_FIRST| |F(RPAREN), 

11 LPAREN_LOST, LPAREN_ WRONG ) ， 

12 symtab. leave( ); 

13 Var*cond=altexpr(); 

14 if(!match(RPAREN)) 

15 recovery(F(SEMICON),RPAREN_LOST, RPAREN_ WRONG); 
16 if(!match(SEMICON)) 

17 recovery(TYPE_FIRST| |STATEMENT_FIRST | |F (RBRACE), 
18 SEMICON_LOST, SEMICON_WRONG); 

19 ir.genDowhileTail 

(cond,_do,_exit); //do-while 尾 部 

20 } 

21 void GenIR: :genDowhileHead 

(InterIinst*& _do, 

22 InterInst*& _exit){ 

23 _do=new InterInst(); // 产 生 


do 标签 


24 _exit=new InterInst(); // 产 生 


eXit 标 签 

25 symtab.addInst(_do 

); | 

26 push(_do,_exit); // 进 入 
do-while 

27 } 


28 void GenIR: :genDowhileTail 


(Var*cond, InterInst* _do, 


29 InterInst* _exit)f{ 

30 if(cond)t{ 

31 if(cond->isVoid())cond=Var::getTrue(); 

32 else if(cond->isRef())cond=genAssign(cond); 
33 symtab.addInst(new InterInst(OP_JT 


;_do,cond)); 
34 


35 symtab.addInst(_exit 
); 

36 pop(); 

37 } 


代码 第 1~27 行 为 dowhilestat 递 归 下 降 子 程序 的 实现 代码 ， 第 28~37 
行为 do-while 首 部 、do-while 尾 部 的 代码 生成 实现 。 


第 4 行 调 用 genDoWhileHead 处 理 do-while 循 环 首 部 。 第 23~25 行 创建 
do 和 _exit 标 签 指令 对 象 ， 并 使 用 push 记 录 。 添 加 _do 标 签 。 


第 19 行 在 do-while 循 环 表达 式 处 理 完毕 后 ， 调 用 genDoWhileTail 处 
理 循环 尾部 。 第 31 行 当 cond 为 void 变量 则 调用 getTrue 返 回 常量 1， 第 33 
行 根据 循环 条 件 生成 目标 标签 为 _do 的 OP_JT 指 令 。 第 35 行 添加 循环 出 


口 标签 exit。 


for 循 环 的 代码 翻译 比 前 两 者 复杂 ，for 循 环 语句 的 基本 形式 为 : 


for(init;cond;step)t 

//do 
loop 
} 


其 中 init 为 初始 化 语句 部 分 ，cond 为 循环 条 件 语句 ，step 为 循环 因 
子 控制 语句 。 将 其 翻译 为 中 间 代 码 形式 为 : 


//do init 
for: 
//do cond 
OP_JF cond _exit //if(!cond)goto 
_exit 
//do loop 


//do step 


OP_JMP _for //goto _for 
_exit: 


for 循 环 的 init 语 句 仅 执行 一 次 ， 因 此 在 循环 体外 即 _for 标 签 前 计 
算 。 而 cond 和 step 必 须 在 循环 体内 计算 ， 因 此 在 _for 标 签 后 。 


虽然 上 述 的 for 循 环 翻译 方式 是 最 佳 的 ， 其 中 对 do loop 的 处 理 在 do 
step 之 前 。 但 实际 扫描 源 代 码 的 顺序 是 step 在 loop 之 前 ， 如 果 按 照 边 扫 
摘 边 生成 代码 的 要 求 ， 征 无 法 生成 上 述 中 间 代 码 的 。 当 然 ， 我 们 可 以 
选择 先生 成 step 的 代码 并 缓存 ， 等 loop 代 码 生成 后 将 缓存 的 代码 追加 到 
loop 之 后 。 不 过 ， 我 们 选择 了 “偷懒 * 的 翻译 方式 ， 这 样 做 在 一 定 程度 上 
降低 了 for 循 环 的 代码 性 能 。 


//do init_for: 


//do cond 
OP_JF _exit cond 


OP_JMP _block 
_step: 

//do step 

OP_JMP _for 
_block: 

//do loop 

OP_JMP _step 


_exit: 


for 循 环 语句 的 实现 框架 包括 四 个 部 分 。 


1) for 首 部 : 创建 循环 入 口 标签 for 和 循环 出 口 标签 exit 指 令 对 象 
并 保存 ， 为 break 和 continue 语 句 代 码 生 成 提供 条 件 标 签 信息 并 添加 标签 


_for 。 


2) for 条 件 首 部 : 处理 循环 条 件 ， 尤 其 是 空 循环 条 件 。 创 建 循环 体 
入 口 标签 _ block、 循 环 因子 控制 语句 入 口 标签 _step 指 令 对 象 。 生 成 目标 
标签 为 _exit 的 OP_JF 指 令 。 生 成 日 标 标签 为 _block 的 OP_JMP 指 令 以 跳 
转 到 循环 体 。 添 加 循环 控制 语句 入 口 标签 _step 。 


3) for 条 件 尾 部 : 处 理 完 step 语 句 后 ， 添 加 目标 标签 为 _for 的 
OP_JMP 指 令 以 跳 转 到 循环 开始 位 置 。 添 加 循环 体 入 口 标签 block 。 


4) for 尾 部 : 产生 目标 标签 为 _step 的 OP_JMP 指 令 ， 并 添加 标签 


_eXit。 


对 for 循 环 语句 的 代码 生成 的 实现 如 下 : 


1 void Parser::forstat 


— 
~ 


symtab.enter(); 
InterInst *_ for,* exit,*_step,*_block; 
match(Kw_FOR); 
if(!match(LPAREN)) 
recovery(TYPE_FIRST| |EXPR_FIRST| |F(SEMICON), 
LPAREN_LOST, LPAREN_ WRONG ) ， 


forinit(); 
ir.genForHead 


0 ~ODOUOA 上 ww 一 


(_for,_exit); 
10 Var*cond=altexpr(); 
11 ir.genForCondBegin 


(cond,_step,_block,_exit); 


12 if(!match(SEMICON)) 

13 recovery(EXPR_FIRST, SEMICON_LOST, SEMICON_WRONG ) ， 
14 altexpr(); 

15 if(!match(RPAREN)) 

16 recovery(F(LBRACE),RPAREN_LOST, RPAREN_ WRONG); 
17 ir.genForCondEend 

(_for,_block); 

18 block(); 

19 ir.genForTail 

(_step,_exit); 

20 symtab. leave( ); 

21 } 


22 void GenIR: :genForHead 


(InterInst*& _for,InterIinst*& _exit){ 


23 _for=new InterInst(); 
24 _exit=new InterInst(); 
25 symtab.addInst(_for 

); 

26 } 


27 void GenIR: :genForCondBegin 


(Var*cond, InterInst*& _step, 


28 InterInst*& _block,InterIinst* _exit){ 
29 _block=new InterInst(); 

30 _step=new InterInst(); 

31 if(cond)t{ 

32 if(cond->isVoid())cond=Var: :getTrue()， 
33 else if(cond->isRef())cond=genAssign(cond); 
34 symtab.addInst(new InterInst(OP_JF 
;_exit, cond)); 

35 symtab.addInst(new InterInst(OP_JMP 
;_block)); 

36 

37 symtab.addInst(_step 


); 
38 push(_step,_exit); 


39 } 
40 void GenIR: :genForCcondEnd 


(InterInst* _for,InterIinst* _block){ 
41 symtab.addInst(new InterInst(OP_JMP 
symtab.addInst(_block 


44 void GenIR: :genForTail 


(InterInSst*& _step,InterIinst*& exit)f{ 


45 Symtab ,addInst(new InterInst(OP_JMP 
,step)); 

46 symtab.addIinst(_exit 

); 

47 pop(); 

48 } 


代码 第 1~21 行 为 forstat 弟 归 下 降 子 程序 的 实现 代码 ， 第 22~48 行 为 
for 首 部 、for 条 件 首部 、for 条 件 尾部 、for 尾 部 的 代码 生成 实现 。 


第 9 行 调 用 genForHead 处 理 for 循 环 首部 。 第 23~25 行 创建 循环 入 口 
标签 _for 和 循环 出 口 标签 exit 指令 对 象 并 保存 ， 并 添加 标签 for。 


第 11 行 在 for 循 环 表达 式 处 理 完 毕 后 ， 调 用 genForCondBegin 处 理 循 
环 条 件 首部 。 第 32 行 当 cond 为 void 变量 则 调用 getTrue， 返 回 常量 1。 第 
34~35 行 根据 循环 条 件 生成 目标 标签 为 _exit 的 OP_ 正 指令 ， 以 及 目标 标 
签 为 _block 的 OP_JMP 指 令 。 


第 17 行 调用 genForCondEnd 处 理 循环 条 件 尾 部 。 第 41~42 行 生成 目 
标 标签 为 _for 的 OP_JMP 指 令 ， 并 添加 循环 体 入 口 标签 _ block 。 


第 19 行 调用 genForTail 处 理 for 循 环 尾 部 ， 第 45~46 行 生成 目标 标签 
为 _step 的 OP_JMP 指 令 ， 并 添加 标签 exit 。 


3.break、continue 语 句 


在 C 语 言语 法 中 ，break 语 句 用 于 中 断 循环 语句 或 者 case 语 句 ， 而 
continue 语 句 用 于 中 断 本 次 循环 。 从 代码 生成 角度 看 ，break 语 句 是 产生 
到 循环 (或 switch) 语句 出 口 的 无 条 件 跳 转 ， 而 continue 语 句 则 是 产生 
到 循环 语句 入 口 的 无 条 件 跳 转 。 例 如 : 


while(cond){ 
//do something 
break; 


continue; 


//do something 


翻译 为 中 间 代 码 形式 为 : 


_while: 

//do cond 

OP_JF _exit cond //if(!cond)goto 
_exit 


//do something 
OP_JMP _exit 


//break 


OP_JMP _while 
//continue 
//do something 


OP_JMP _while //goto _while 
_exit: 


在 翻译 break 或 continue 语 句 时 ， 必 须 获得 正确 的 跳 转 指 令 的 目标 标 
签 。break 或 continue 语 句 只 能 出 现在 循环 语句 或 者 switch-case 语 句 内 
部 ， 因 此 在 对 循环 和 switch-case 语 句 进 行 代码 生成 时 ， 必 须 产生 入 口 和 
出 上 问 标 窒 ? 


另外 ， 循 环 语句 和 switch-case 语 句 允 许 相 互 舱 套 ， 而 break 和 
continue 语 句 的 作用 对 象 是 最 内 层 的 循环 或 switch-case 语 句 。 这 与 变量 
的 作用 域 管 理 机 制 比 较 相 似 ， 因 此 可 以 采用 类 似 作用 域 管理 的 方法 。 


1 vector<InterInst*> heads 
/ 

2 vector<InterInst*> tails 
/ 

3 void GenIR: :push 


(InterIinst*head,InterInst*tail)t{ 
heads .push_back (head); 


5 tails.push_back(tail); 
6 } 

7 void GenIR::pop 

(){ 

8 heads .pop_back(); 

9 tails.pop_back(); 

10 } 


我 们 使 用 两 个 栈 heads 和 tails 对 循环 语句 和 switch-case 语 句 的 藤 套 层 
次 进行 动态 管理 ， 其 中 heads 记 录 语 句 的 入 口 标签 序列 ，tails 记 录 语 句 
的 出 口 标签 序列 。 这 两 个 序列 是 同时 操作 的 ， 当 进入 循环 语句 或 switch 
语句 作用 域 时 ， 使 用 push 函 数 将 语句 的 入 口 标签 和 出 口 标签 分 别 保存 
到 heads 和 tails 栈 中 。 当 离开 循环 语句 或 switch 语 句 作 用 域 时 ， 使 用 pop 

函 数 将 heads 和 tails 的 栈 顶 元 素 弹 出 。 回 磊 前 面 讨 论 的 循环 语句 和 


switch-case 语 句 的 代码 生成 ， 在 处 理 语句 的 首部 和 尾部 的 代码 生成 时 ， 
会 调用 push 和 pop 本 数 完成 出 入 口 标签 的 动态 管理 。 这 样 heads 和 tails 的 
栈 顶 元 素 始终 保存 春 当 前 作用 域 所 在 循环 或 switch-case 语 句 的 入 口 和 出 
口 标签 ， 如 采 当 前 作用 域 不 在 任何 循环 或 switch 语 句 内 ， 栈 顶 元 素 应 该 
保存 NULL。 因 此 ， 需 要 对 heads 和 tails 进 行 初 始 化 。 


push(NULL, NULL 


); // 初 始 化 


对 break 和 continue 语 句 进 行 代 码 生 成 时 ， 只 需要 从 heads 和 tails 栈 顶 
取出 入 口 和 出 口 标签 即 可 。 


1 void GenIR::genBreak 


3 InterIinst*tail=tails.back 

(); // 取 出 出 口 标签 

3 if(tail)symtab.addInst(new InterInst(OP_JMP 
, tail)); 

4 else SEMERROR 

(BREAK_ERR ) ; //break 不 在 循环 或 


switch-case 中 


5 } 

6 void GenIR: :genContinue 

()t 

7 InterIinst*head=heads .back 

(); // 取 出 入 口 标签 

8 if(head)symtab ,addInst(new InterInst(OP_JMP 
rhead) ) ; 

9 else SEMERROR 


(CONTINUE_ERR ) ; //continue 不 在 循环 中 


10 } 


第 2~4 行 ， 使 用 genBreak 进 行 break 语 句 代 码 生 成 时 ， 需 要 从 tails 栈 
中 取出 语句 出 口 标签 tail， 然 后 生成 目标 标签 为 tail 的 OP_JMP 指 令 。 如 
果 tail 为 NULL， 则 说 明 break 语 句 不 在 合法 的 语句 内 ， 报 告 语义 错误 。 


第 7~9 行 ， 使 用 genContinue 进 行 continue 语 句 代 码 生 成 时 ， 需 要 从 
heads 栈 中 取出 语句 入 口 标 签 head， 然 后 生成 目标 标签 为 head 的 OP_JMP 
指令 。 如 果 head 为 NULL， 则 说 明 continue 语 名 不 在 合法 的 语句 内 ， 报 


告 语义 错误 。 


在 前 面 讨 论 的 循环 语句 和 switch-case 语 句 的 代码 生成 中 ， 产 生 的 语 
名 入 口 和 出 口 标签 分 别 如 表 3-9 所 示 。 


表 3-9 ”语句 出 入 口 标签 


语句 类 型 入 口 标签 出 口 标签 
while 循环 _while _exit 
do-while 循环 _do _exit 
for 循环 _ 六 oO _ exi 二 
switch-case 分 支 NULL _exit 
其 他 不 处 理 不 处 理 


其 中 最 为 特殊 的 是 switch-case 语 句 的 入 口 标签 ， 它 的 入 口 标签 设置 
为 NULL 。 这 是 因为 switch-case 语 人 句 内 不 允许 出 现 continue 语 句 ， 因 此 在 


switch-case 语 句 内 进行 continue 语 句 的 代码 生成 时 ， 取 出 的 heads 栈 顶 元 
素 为 NULL， 因 此 报告 语义 错误 。 


3.5.6 ”目标 代码 生成 


经 过 前 面 的 讨论 ， 我 们 已 经 将 高 级 语言 代码 转化 为 中 间 代 码 形 
式 。 接 下 来 要 将 中 间 代 码 翻译 为 具体 的 目标 指令 集 指 令 ， 我 们 选择 生 
成 Intel x86 指 令 集 指令 。 设 计 中 间 代码 除了 可 以 屏蔽 具体 机 融 的 指令 
集 细 六 ， 还 可 以 降低 代码 生成 时 需要 考虑 的 变量 存储 访问 的 复杂 性 。 
在 中 间 代 码 表示 中 ， 对 变量 的 信息 统一 由 Var 对 象 管理 ， 这 使 得 中 间 代 
码 指令 形式 简单 。 而 将 中 间 代 码 进一步 转化 为 目标 指令 集 代 码 时 ， 则 
需要 考虑 变量 的 存储 细 记 。 


计算 写 回 寄存 器 寄存 需 


图 3-25 目标 代码 生成 


如 图 3-25 所 示 ， 我 们 根据 中 间 代 码 指 令 的 一 般 形 式 讨论 目标 代码 
的 生成 策略 。 中 间 代 码 指令 (四 元 式 ) 分 为 四 个 基本 要 素 : arg1 和 arg2 


提供 计算 对 象 ，op 提 供 计算 操作 ，result 提 供 计算 结 有 末 。 由 于 argl、 
arg2 和 result 在 中 间 代 码 指令 InterInst 对 象 内 由 Var 对 象 统一 表示 ， 因 此 
可 能 存在 多 种 存储 类 型 一 和 闻 量 、 数 据 段 、 栈 、 扒 、 寄 存 融 等 ， 变 量 
存储 的 多 样 性 使 得 生成 的 目标 指令 中 操作 数 的 组 合 有 数 十 种 之 多 。 为 
了 简化 目标 代码 生成 的 烦琐 程度 ， 我 们 使 用 寄存 着 代 蔡 原本 存储 形式 
多 样 的 操作 数 ， 并 将 中 间 代 码 指令 的 目标 代码 生成 划分 为 四 个 阶段 : 


1) 加 载 arg1 到 寄存 器 reg1， 此 时 需要 根据 arg1 的 存储 类 型 取出 
arg1 的 值 ， 并 保存 到 寄存 器 reg1 。 


2) 加 载 arg2 到 寄存 器 reg2， 此 时 需要 根据 arg2 的 存储 类 型 取出 
arg2 的 值 ， 并 保存 到 寄存 佛 reg2。 


3) 生成 计算 指令 ， 根 据 op 的 特性 选择 适当 的 目标 指令 操作 码 ， 并 
以 reg1 和 reg2 为 操作 数 进 行 计算 ， 计 算 结果 保存 到 reg3。 在 x86 指 令 集 
中 ，reg1 和 reg3 一 般 是 同一 个 寄存 器 。 比 如 指令 “add eax，ebx” 的 功能 
便 是 “eax=eaxtebx”， 其 中 reg1 和 reg3 都 是 寄存 器 eax。 


4) 计算 结果 写 回 ， 此 时 需要 考虑 result 的 存储 类 型 ， 将 reg3 的 值 写 
回 到 result 。 


在 讨论 计算 指令 的 生成 前 ， 需 要 明确 变量 是 如 何 加 载 和 写 回 的 。 
loadVar 函 数 将 变量 加 载 到 寄存 右 。 


1 void InterInst::1oadVar 


string reg32,string reg8,Var*var)t{ 
if(!var)return,; 


if(var->isChar()) 
emit("mov %s,0",reg32.c_str()); 


( 
2 
3 const char*reg=var->isChar()?reg8.c_str():reg32.c_str(); 
4 
5 


尾 
7 将 


32 位 寄存 器 清 


六 Go、lODD 


//mov eax/al, [name] 
1 


12 

//mov eax name 

13 

14 } 

15 elsef 
// 局 部 符号 


16 

//mov eax/al, [ebp-off] 
17 

18 

//lea eax, [ebp-off] 

19 

20 } 

21 

22 elsef{ 

// 常 量 


const char*name=var->getName().c_str(); 
if(var->notConst())t{ 
int off=var->getoffset(); 
if(!off){ 


if(!var->getArray( )) 


emit("mov %s,[%s]",reg,name); 
else 


emit("mov %s,%s",reg,name); 


if(!var->getArray( )) 


emit("mov %s, [ebp%+d]",reg,off); 
else 


emit("lea %s, [ebp%+d]",reg,off); 


23 if(var->isBase()) 


eax,val 

24 

25 else 
//mov eax name 

26 

27 } 

28 } 


第 3 行 判断 var 如 果 是 字符 变量 ， 则 将 变量 值 保存 到 寄存 絮 


emit("mov %s,%d",reg,var->getVal( )); 


emit("mov %s,%s",reg,name); 


//mov 


的 低 8 


位 ， 人 否则 用 寄存 硕 的 全 32 位 保存 变量 值 。 第 4~5 行 ， 在 var 是 字符 变量 


的 时 候 ， 将 32 位 寄存 大 


清 0。 


第 7~21 行 处 理 var 不 是 常量 的 情况 。 第 10~11 行 表示 var 是 全 局 变 
量 ， 直 接 根 据 变量 名 访问 内 存 ， 如 “mov eax，[var]”°。 第 12~13 行 表示 
var 是 全 局 数组 ， 对 数组 名 的 访问 不 是 取 内 存 的 值 ， 而 是 将 数组 名 作为 
立即 数 ， 如 “mov eax，array”。 第 16~17 行 表示 var 是 局 部 变量 ， 需 要 根 
据 变 量 的 栈 帧 偏 移 访 问 内 存 ， 如 “mov eax，[ebp-40]”。 第 12~13 行 表示 
Var 是 局 部 数组 ， 局 部 数组 名 的 访问 一 般 使 用 lea 指 令 取 数组 第 一 个 元 素 
的 地 址 ， 如 “lea eax，[ebp-4]”。 


第 22~27 行 处 理 var 是 常量 的 情况 。 第 23~24 行 表示 var 是 基本 类 型 

， 使 用 var 的 getVal 方 法 将 常量 值 取出 作为 立即 数 ， 如 “mov eax， 
100”。 第 25~26 行 表示 var 是 字符 串 常量 ， 由 于 字符 串 常量 在 数据 段 ， 
因此 与 全 局 数组 名 的 访问 相同 ， 即 使 用 字符 串 常 量 名 称 作 为 立即 数 ， 


如 “mov eax, str”° 


loadVar 芳 数 是 将 变量 的 值 取出 保存 到 寄存 器 ， 但 十 在 取 址 运算 的 
时 候 ， 对 变量 的 访问 不 是 取 值 ， 而 是 取 址 。 因 此 需要 使 用 leaVar 函 数 
变量 地 址 的 加 载 。 


1 void InterInst::leaVar 


(string Pg Var*var){ 
2 if(!var)return,; 
3 const char*reg=reg32.c_str(); 
4 const char*name=var->getName().c_str(); 
5 int off=var->getoffset(),; 
6 if(!off) 
SY eax,name 
emit("mov %s,%s",reg,name); 
8 lse 
oa eax, feb off] 
emit("lea %s, [ebp%+d]",reg,off); 
1 


变量 的 地 址 加 载 比 较 简 单 ， 数 组 变量 和 常量 是 不 需要 取 地 址 的 ， 
不 需要 考 不 ， 而 普通 的 变量 就 只 有 全 局 和 局 部 之 分 。 第 6~7 行 表示 取 
全 局 变量 的 地 址 ， 只 需要 将 变量 名 作为 立即 数 访 问 即 可 ， 如 “mov 
eax，vVar”。 第 8~9 行 表示 取 局 部 变量 的 地 址 ， 这 个 与 局 部 数组 名 的 访 
问 类 似 ， 即 使 用 lea 指 令 获 取 变 量 地 址 ， 如 “mov eax，[ebp-4]”。 


讨论 完 变 量 的 加 载 后 ， 接 下 来 讨论 计算 结果 的 写 回 。 我 们 使 用 
storeVar 芳 数 将 寄存 器 的 值 写 回 到 变量 。 


1 void InterInst::storeVar 


(string reg32,string reg8,Var*var)t{ 
2 if(!var)return,; 
3 const char*reg=var->isChar()?reg8.c_str():reg32.c_str(); 
4 const char*name=var->getName().c_str(); 
5 int off=var->getoffset(),; 
6 if(!off) //mov 
[name],eax/al 

7 emit("mov [%s],%s",name,reg); 

8 else 

//mov [ebp-off],eax/al 

9 emit("mov [ebp%+d],%s",off,reg); 

10 } 


第 3 行 判 晰 var 如 果 是 字符 变量 ， 则 选择 将 寄存 器 低 八 位 的 值 保存 
到 变量 ， 人 否则 将 32 位 寄存 器 的 值 保 存 到 变量 。 


束 像 对 变量 取 址 一 样 ， 计 算 结 果 的 写 回 也 只 需要 考虑 普通 变量 的 
情况 。 第 6~7 行 表示 写 入 全 局 变量 ， 将 变量 名 作为 地 址 访问 ， 
如 “mov[var]，eax”°。 第 8~9 行 表示 写 入 局 部 变量 ， 需 要 根据 局 部 变量 
的 栈 帧 偏 移 访问 内 存 ， 如 “mov[ebp-4]，eax”。 


除了 将 计算 结 采 写 回 到 变量 之 外 ， 局 部 变量 的 初始 化 也 需要 对 变 
量 进行 写 操作 。 


1 void InterInst::initVar 


(Var*var)t{ 

2 if(!var)return,; 

3 if(!var->unInit())t{ 

4 if(var->isBase()) //mov 
eax,val 

5 emit("mov eax,%d",var->getVal()); 


6 else 
//mov [name],ptrVal 

7 emit("mov eax,%s",var->getPptrVal().c_ str()); 
8 storeVar("eax", "al",var); 

9 

10 } 


第 3 行 判断 变量 是 否 被 初始 化 ，unInit 男 数 检测 var 的 inited 字 段 是 否 
为 false， 只 有 使 用 常量 初始 化 的 变量 ， 其 inited 字 段 才 设 为 true ( 详 见 
3.4.1TsetInit 函 数 实 现 ) 。 第 4~5 行 表示 基本 类 型 变量 的 初始 化 ， 只 需 
要 调用 getVal 函 数 将 变量 的 初始 值 取 出 ， 作 为 立即 数 保存 到 eax 寄 存 
厂 ， 如 “mov eax，100”。 


第 6~7 行 表示 字符 指针 变量 的 初始 化 ， 其 初始 值 必 是 常量 字符 
串 。 通 过 调用 getPtrVal 碎 数 获取 字符 串 常 量 的 名 称 ， 并 作为 立即 数 保 
存 到 eax 寄 存 器 ， 如 “mov eax，str”。 


第 8 行 调 用 storeVar 将 eax 寄 存 器 的 值 写 入 变量 var， 完 成 变量 的 初始 
化 。 


目标 代码 生成 中 ， 获 取 操 作 数 的 值 或 者 地 址 只 需要 调用 loadVar 和 
leaVar 将 需要 的 操作 数 加 载 到 寄存 硕 ， 写 入 计算 结果 时 只 需要 调用 
storeVar 将 寄存 器 写 入 内 存 即 可 ， 这 使 得 计算 指令 的 翻译 大 大 简化 。 画 
数 toX86 将 中 间 代 码 指令 转化 为 x86 汇 编 指令 。 


1 #define emit 


(fmt, args...) fprintf(file,"\t"fmt"\n", ##args) 
2 void InterIinst::toX86 


(){ 、 

3 if(label!=""){ 

4 fprintf(file,"%s:\n",1label.c_str()); 
5 return; 

6 } 

7 switch(op)t{ 

8 case OP_DEC : 

9 initVar(arg1); 

10 break; 

11 case OP_ENTRY: 

12 emit("push ebp"); 

13 emit("mov ebp,esp"); 

14 ne esp,%d",inst->getFun()->getMaxDep()); 
15 reak; 

16 case OP_EXIT: 

17 emit("mov esp,ebp"); 

18 emit("pop ebp"); 

19 emit("ret"); 

20 break; 

21 case OP_AS: 

22 loadVar ("eax","al",arg1); 

23 storeVar("eax","al",result); 
24 break; 

25 case OP_ADD: 

26 loadVar ("eax","al",arg1); 

27 loadVar ("ebx", "bl",arg2); 

28 emit("add eax,ebx"); 

29 storeVar("eax","al",result); 
30 break; 

31 case OP_SUB: 

32 loadVar ("eax","al",arg1); 

33 loadVar ("ebx", "bl",arg2); 

34 emit("sub eax,ebx"); 

35 storeVar("eax","al",result); 
36 break; 

37 case OP_MUL: 

38 loadVar ("eax","al",arg1); 
39 loadVar ("ebx", "bl",arg2); 
40 emit("imul ebx"); 

41 storeVar("eax","al",result); 
42 break; 

43 case OP_DIV: 

44 loadVar ("eax","al",arg1); 
45 loadVar ("ebx", "bl",arg2); 
46 emit("idiv ebx"); 


47 storeVar("eax","al",result); 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


Case 


break; 

OP_MOD : 
LoadVvar("eax"， "al" ,arg1) ， 
loadVar ("ebx", "bl",arg2); 
emit("idiv ebx"); 
storeVar("edx", "dl",result); 


break; 

OP_NEG: 
loadVar ("eax","al",arg1); 
emit("neg eax"); 
storeVar("eax","al",result); 
break; 

OP_GT: 
loadVar ("eax","al",arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 
emit("cmp eax,ebx"); 
emit("setg cl1") 
storeVar("ecx", "cl",result); 
break; 

OP_GE : 
LoadVvar("eax"， "al" ,arg1) ， 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 
ee es 
emit("setge cl1") 
storeVar("ecx", "cl",result); 
break; 

OP_LT: 
loadVar ("eax","al",arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"),; 
es i 
emit("set] cl1") 
storeVar("ecx", "cl",result); 
break; 

OP_LE: 
LoadVvar("eax"， "al" ,arg1) ， 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 

EN ee 
emit("setle cl") 
storeVar("ecx", "cl",result); 
break; 

OP_EQU: 


loadVar ("eax","al",arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"); 

emit("cmp eax,ebx"); 
emit("sete cl") 
storeVar("ecx", "cl",result); 


break; 

OP_NE: 
loadVar ("eax","al",arg1); 
loadVar ("ebx", "bl",arg2); 
emit("mov ecx,0"),; 
emit("cmp eax,ebx"); 
emit("setne cl1") 
storeVar("ecx", "cl",result); 
break; 

OP_NOT: 


loadVar ("eax","al",arg1); 
emit("mov ebx,0"); 

emit("cmp eax,0"); 
emit("sete bl"); 
storeVar("ebx", "bl",result); 


114 break ， 


115 case OP_AND: 

116 loadVar("eax","al",arg1); 

117 emit("cmp eax,0"); 

118 emit("setne cl1"); 

119 loadVar ("ebx", "bl",arg2); 

120 emit("cmp ebx,0"); 

121 emit("setne bl"); 

122 emit("add eax,ebx"); 

123 storeVar("eax","al",result); 

124 break; 

125 case OP_OR: 

126 loadVar ("eax","al",arg1); 

127 emit("cmp eax,0"); 

128 emit("setne al"); 

129 loadVar ("ebx", "bl",arg2); 

130 emit("cmp ebx,0"); 

131 emit("setne bl"); 

132 emit("or eax,ebx"); 

133 storeVar("eax","al",result); 

134 break; 

135 case OP_JMP: 

136 emit("jmp %s",target->label.c_str()); 

137 break; 

138 case OP_JT: 

139 loadVar ("eax","al",arg1); 

140 emit("cmp eax,O0"),; 

141 emit("jne %s",target->label.c_str()); 

142 break; 

143 case OP_JF: 

144 loadVar ("eax","al",arg1); 

145 emit("cmp eax,0"); 

146 emit("je %s",target->label.c_str()); 

147 break; 

148 case OP_JNE: 

149 loadVar ("eax","al",arg1); 

150 loadVar ("ebx", "bl",arg2); 

151 emit("cmp eax,ebx"); 

152 emit("jne %s",target->label.c_str()); 

153 break; 

154 case OP_ARG: 

155 loadVar ("eax","al",arg1); 

156 emit("push eax"); 

157 break; 

158 case OP_PROC: 

159 emit("call %s",fun->getName().c_str()); 

160 emit("add esp,%d",fun->getParaVar().size()*4); 

161 break; 

162 case OP_CALL: 

163 emit("call %s",fun->getName().c_str()); 

164 emit("add esp,%d",fun->getParaVar().size()*4); 

165 storeVar("eax","al",result); 

166 break; 

167 case OP_RET: 

168 emit("jmp %s",target->label.c_str()); 

169 break; 

170 case OP_RETYV: 

171 loadVar ("eax","al",arg1); 

Ss be a %s",target->label.c_str()); 
reak; 

174 case OP_LEA: 

175 leaVar ("eax",arg1); 

176 storeVar("eax","al",result); 

177 break; 

178 case OP_SET: 


179 loadVar ("eax","al",result); 


180 loadVar ("ebx", "bl",arg1); 


181 emit("mov [ebx],eax"); 

182 break; 

183 case OP_GET: 

184 loadVar ("eax","al",arg1); 
185 emit("mov eax, [eax]"); 

186 storeVar("eax","al",result); 
187 break; 

188 

189 } 


第 1 行 的 emit 安 生 对 fprintf 的 封装 ， 和 表示 将 一 条 指令 写 入 文件 ， 并 
在 指令 前 添加 一 个 制 表 符 ， 在 指令 结尾 处 添加 换行 符 。 


第 3 行 label 字 段 不 为 空 ， 表 示 输 出 标签 指令 ， 在 标签 后 添加 字 
符 :: ,和 换行 符 。 第 7~187 行 处 理 所 有 的 中 间 代码 指令 的 翻译 。 


第 8~10 行 处 理 OP_DEC 指 令 ， 调 用 initVar 处 理 变 量 的 初始 化 。 


第 11~15 行 处 理 OP_ENTRY 指 令 ， 输 出 函数 入 口 代码 。 包 括 ebp 入 
栈 、 保 存 esp、 开 辟 栈 帧 。 第 16~20 行 处 理 OP_EXIT 指 令 ， 输 出 函数 出 
口 代码 。 包 括 恢复 esp、 恢 复 ebp、 范 数 返 回 。 


第 21~24 行 处 理 OP_AS 指 令 ， 调 用 loadVar 将 arg1 加 载 到 寄存 器 eax 
(或 8 位 寄存 器 al) ， 再 调用 storeVar 将 寄存 器 eax 写 入 变量 result 。 


第 25~54 行 处 理 双 日 算术 运算 指令 加 、 减 、 乘 、 除 、 取 模 ， 对 应 
操作 符 为 OP ADD、OP SUB、OP MUL、OP_DIV、OP_MOD。 它 们 
都 是 调用 loadvar 将 arg1 和 arg2 加 载 到 eax 和 ebx (或 8 位 寄存 器 bl) ， 然 


后 生成 运算 指令 ， 分 别 为 “add eax,，ebx”、“sub eax，ebx”、“mul 


ebx”、“div ebx”、“div ebx”， 最 后 调用 storeVar 将 eax 写 入 result。 对 于 
取 模 运算 ， 则 是 将 edx (或 8 位 寄存 器 dl) 写 入 result。 


第 55~59 行 处 理 取 负 单 目 算术 运算 指令 ， 操 作 符 为 OP_NEG。 调 用 
loadvar 将 arg1 加 载 到 寄存 器 eax， 生 成 计算 指令 “neg eax”， 再 调用 


storeVar 将 寄存 器 eax 写 入 空 量 result 。 


第 60~107 行 处 理 关系 运算 指令 ， 对 应 操作 符 为 OP_GT、OP_GE、 
OP_LT、OP_ LE、OP_EQU、OP_NE。 首 先 调用 loadvar 将 arg1 和 arg2 加 
载 到 eax 和 ebx， 然 后 将 比较 结果 保存 到 ecx， 生 成 的 指令 序列 如 下 : 


mov ecxy 0 
cmp eax,ebx 
set? cl 


其 中 , “set? ”指令 会 根据 cmp 指 令 的 比较 结果 将 ecx 设 置 为 1。 上 
述 天 系 运算 对 应 的 “set? ”指令 分 别 
为 “setgt”、“setge”、“setlt”、“setle”、“sete”、“setne”°。 蕊 后 调用 


storeVar 将 ecx (或 8 位 寄存 器 dl) 写 入 result 。 


第 108~114 行 处 理 逻 辑 非 运算 指令 ， 操 作 符 为 OP_NOT。 调 用 
loadVar 将 arg1l1 加 载 到 寄存 侣 eax， 然 后 生成 如 下 指令 序列 ， 将 结果 保存 
到 ebx 。 

mov ebx 0 


cmp eax,0 
sete bl 


首先 将 ebx 设 为 0， 然 后 比较 eax 是 否 等 于 0，eax 如 果 等 于 0 则 将 ebx 
设 为 1， 这 样 ebx 保存 了 eax 的 逻辑 非 结 有 果 。 最 后 调用 storeVar 将 寄存 右 


ebx 写 入 变量 result 。 


第 115~134 行 处 理 逻 辑 与 、 逻 辑 或 运算 指令 ， 操 作 符 分 别 为 
OP_AND、OP_OR。 首 先 调 用 loadVar 将 arg1 加 载 到 寄存 器 eax， 然 后 生 
成 指令 序列 “cmp eax，0” 和 “setne al”"， 如 果 eax 不 等 于 0， 则 设置 eax 为 
1，eax 保 存 了 arg1 的 逻辑 值 。 按 照 类 似 的 方式 处 理 arg2， 即 调用 loadVar 
将 arg2 加 载 到 寄存 器 ebx， 然 后 生成 指令 序列 “cmp ebx，0” 和 “setne 
bl”*"， 这 样 ebx 保 存 了 arg2 的 逻辑 值 。 接 着 生成 运算 指令 “add eax， 
ebx” 或 “or eax，ebx” 将 运算 结果 存放 到 eax 中 ， 最 后 调用 storeVar 将 寄存 


器 eax 写 入 变量 result 。 


第 135~137 行 处 理 无 条 件 跳 转 指 令 OP_JMP， 直 接生 成 jmp 指 令 ， 
目标 标签 地 址 为 target 的 label 字 段 名 。 


第 138~147 行 处 理 条 件 跳 转 指令 OP_JT、OP_ 正 。 首 先 将 arg1 加 载 
到 eax， 然 后 生成 *cmp eax，0” 指 令 ， 最 后 生成 jne 和 je 指令 ， 目 标 标 签 
地 址 为 target 的 label 字 段 名 。 


第 148~153 行 处 理 条 件 跳 转 指令 OP_JNE。 首 先 将 arg1 加 载 到 eax， 
将 arg2 加 载 到 ebx， 然 后 生成 <cmp eax，ebx” 指 令 ， 最 后 生成 jne 指 令 ， 
目标 标签 地 址 为 target 的 label 字 段 名 。 


第 154~157 行 处 理 参数 入 栈 指令 OP_ARG。 首 先 将 arg1 加 载 到 
eax， 然 后 使 用 “push eax” 指 令 将 参数 入 栈 。 


第 158~166 行 处 理 函 数 调用 指令 OP_PROC 和 OP_CALL。 首 先 使 用 
call 指 令 调 用 画 数 ， 画 数 名 为 fun 的 name 字 段 。 画 数 调用 完毕 后 需要 恢 
复 栈 帧 ， 生 成 *add esp ，len” 指 令 ， 其 中 len 为 函数 参数 个 数 ， 

即 “getParaVar () .size () *4” (参数 都 是 通过 push eax 入 栈 ， 因 此 每 
个 参数 占 4 个 字 节 ) 。 对 于 OP_CALL 指 令 ， 还 需要 调用 storeVar 将 函数 


二 
返回 值 eax 写 入 变量 result 。 


第 167~173 行 处 理 函 数 返 回 指令 OP_RET 和 OP_RETV。 对 于 
OP_RETV 指 令 需 要 调用 loadVar 将 函数 返回 值 arg1 保 存 到 eax。 然 后 
OP_RET 和 OP_RETV 都 需要 使 用 jmp 指 令 跳 转 到 函数 出 口 代码 位 置 ， 
即 函 数 返回 点 returnPoint 记 录 的 标签 指向 的 位 置 。 


第 174~177 行 处 理 取 址 运算 指令 OP_LEA， 首 先 调 用 leaVar 将 arg1 
的 地 址 保存 到 eax， 然 后 调用 storeVar 将 eax 保 存 到 result 。 


第 178~187 行 处 理 指针 运算 指令 OP_SET 和 OP_GET。 


OP_SET 指 令 的 含义 为 “*arg1=result*"， 因 此 首先 调用 loadVar 将 
result 保 存 到 eax， 将 argl 保 存 到 ebx， 最 后 生成 <mov[ebx]，eax” 完 成 


OP_ SET 运算 。 


OP_GET 指 令 的 含义 为 “result=*arg1”， 因 此 首先 调用 loadvar 将 arg1 
保存 到 eax， 然 后 生成 “mov eax，[eax]” 完 成 指针 的 取 值 ， 最 后 调用 
storeVar 将 eax 保 存 到 result。 


3.5.7 ”数据 段 生成 


在 Linux 系 统 中 ， 将 代码 的 静态 数据 放 在 3 个 独立 的 段 内 。 
(1) “.data” 段 。 该 段 保存 所 有 已 初始 化 的 全 局 变量 。 


(2) “.bss” 段 。 该 段 保存 所 有 未 初始 化 的 全 局 变量 ， 且 初始 化 为 


(3) “.rodata” 段 。 该 段 保 存 所 有 常量 字符 串 的 内 容 。 


为 了 减少 段 的 数量 ， 达 到 清晰 说 明 编 译 系统 实现 的 目的 ， 我 们 将 
上 述 三 个 段 合 并 到 “.data"， 统 称 为 数据 段 。 数 据 段 的 信息 来 源 于 全 局 


在 符号 表 中 ，varTab 保 存 了 所 有 变量 的 信息 ， 数 据 段 只 关心 全 局 
变量 的 定义 。 因 此 ， 需 要 提供 从 varTab 中 获取 全 局 变量 的 方法 。 


1 vector<Var*> SymTab: :getGlbVars 


( 

2 vector<Var*> glbVars; 

3 hash_map<string,vector<Var*>*,string_hash>::iterator varIt 

4 VarEnd=varTab.end( ) ; 

5 for(varIt=varTab ,begin();VvarIt!=vVarEnd;++VarIt){ 

6 string VarName=VarIt->first， 

7 if(varName[0]=='<')continue / /忽略 常量 


8 Vector<Var*>&list=*varIt->Ssecond 
9 for(int j=0;j<list.size();j++){ 
10 if(list[j]->getPath().size()==1){ / /全 局 3 


可 
并 
且 


11 glbVars.push_back(list[j]); 
12 break; 
// 唯 一 同名 全 局 


可 
六 
十 


13 } 
14 } 


16 return glbVars; 


函数 getGlbVars 返 回 全 局 变量 列表 ， 第 5 行 通 历 varTab 。 


第 6 行 取出 变量 名 varName， 如 果 以 字符 '<' 开 始 ， 说 明 是 数字 锦 
则 忽略 。 


区 


第 8~9 行 取出 同名 变量 列表 list， 并 遇 有 历 。 

第 10 行 判断 列表 内 每 个 变量 的 作用 域 路 径 是 否 长 度 为 1， 即 作用 域 
路 径 为 "0”。 判 断 成 功 后 表示 该 变量 是 全 局 变量 ， 将 变量 对 象 应 加 到 
列表 glbVars， 并 停止 列表 查找 ， 因 为 全 局 作用 域内 不 可 能 出 现 另 一 个 


在 符号 表 中 ，strIab 保 存 了 所 有 字符 串 常 量 的 信息 ， 数 据 段 需要 保 
存 利 量 字符 串 的 内 容 。 词 法 分 析 亏 对 字符 串 扫 横 后 ， 将 之 转化 为 字符 
串 的 二 进 制 表示 ， 比 如 字符 串 “abcv” 在 字符 串 常 量 的 变量 对 象 内 ， 保 
存 的 字符 串 内 容 为 a、'b'、'c、"\n'。 代 码 生 成 需要 将 字符 串 内 容 输 出 
到 汇编 代码 文件 内 ， 上 述 字符 串 输出 后 ， 换 行 符 会 按照 字符 格式 打 
印 ， 在 文件 内 产生 换行 ， 而 非 输 出 “n”。 当 然 可 以 选择 将 特殊 的 字符 


再 次 转化 为 转 义 字符 输出 ， 比 如 对 于 换行 符 ， 输 出 字符 串 \、m“。 不 过 
我 们 选择 输出 与 NASM 汇 编 语法 相似 的 格式 。 


"abc",10,0 


对 于 普通 的 字符 串 ， 我 们 输出 子 符 串 本 里 的 内 容 并 在 字符 串 首尾 
加 双 引 号 。 而 对 于 特殊 字符 则 将 其 转化 为 对 应 的 ASCII 码 后 输出 ， 并 
且 以 喜 号 进行 分 隔 。 需 要 考虑 的 特殊 字符 有 : 制 表 符 \t、 换 行 符 \m'、 


双 引 号 \"、 字符 串 结 束 符 \0'。 


字符 串 转 换 的 思想 是 ， 了 逐 字 市 扫 搬 字符 串 内 容 ， 依 次 处 理 每 个 字 
符 的 输出 格式 。 对 于 特殊 字符 ， 输 出 其 ASCII 码 ， 否 则 正常 输出 字 
符 。 我 们 使 用 变量 chpass 记 录 上 一 个 字符 的 输出 形式 ，0 表 示 输 出 
ASCII 码 ，1 表 示 输 出 字符 。 当 上 一 个 字符 的 输出 形式 是 ASCII 码 时 ， 
如 果 当 前 字符 输出 形式 仍 是 ASCII 码 ， 则 需要 插入 逗号 后 再 输出 ASCII 
码 ， 否 则 移 后 输出 逗号 和 双 引 号 (字符 串 开 始 ) ， 再 输出 字符 。 当 上 
一 个 字符 的 输出 形式 是 字符 时 ， 如 果 当 前 字符 输出 形式 是 ASCII 码 ， 
则 需要 先后 输出 双 引 号 (字符 串 结束 ) 和 逗号 ， 再 输出 ASCII 码 ， 否 
则 直接 输出 字符 。 另 外 ， 如 果 当 前 输出 的 字符 是 第 一 个 字符 时 ， 则 不 
需要 插入 逗号 。 如 果 当 前 输出 的 字符 是 最 后 一 个 字符 ， 且 输出 形式 不 
是 ASCII 码 时 ， 需 要 和 输出 一 个 双 引 号 表示 字符 串 结束 。 所 有 字符 处 理 


完毕 后 ， 还 需要 输出 一 个 逗号 和 0， 表 示 绪 束 标记 。 


将 字符 串 转 化 为 NASM 语 法 格式 的 实现 代码 为 : 


1 string Var::getRawstr 


(){ 

2 stringstream ss; 

3 int len=strVal.size(); 

4 for(int i=0,chpass=0;i<]len;i++){ 

5 if(strvVval[i]==10 

6 |lstrval[i]==9 

7 Ilstrval[i]=="\"" 

8 ||strval[il]=='\0'){ //\N Nt " 
\0 

9 if(chpass==0) 

10 

11 if(i!=0)ss<<","; 

12 ss<<(int)strVval[il]; 
13 } 

14 else 

15 ss<<"\", "<<(int)strVval[i]; 
16 chpass=0; 

17 } 

18 elsef 

19 if(chpass==0){ 

20 if(i!=0)ss<<","; 

21 ss<<"\""<<strVall[il]; 
22 下 

23 else 

24 ss<<strVal[i]; 

25 if(i==len-1)ss<<"\""; 

26 chpass=1; 

27 } 

28 } 

29 ss<<",0"， / /字符 串 
结束 

30 return ss.str(); 

31 } 


第 4 行 扫描 字符 串 内 的 字符 ， 第 5~17 行 处 理 特殊 字符 的 输出 ， 第 
18~27 行 处 理 普 通 字 符 的 输出 ， 第 29 行 处 理 字 符 串 结束 标记 。 


第 11~13 行 处 理 输出 ASCII 码 后 仍 输出 ASCII 码 的 情况 ， 如 果 当 前 


字符 不 是 第 一 个 字符 则 需要 插入 逗号 。 


第 15 行 处 理 输出 普通 字符 后 输出 ASCII 码 的 情况 ， 此 时 需要 插入 
双 引 号 和 逗号 。 


第 19~22 行 处 理 输出 ASCII 码 后 输出 普通 字符 的 情况 ， 如 果 当 前 字 
符 不 是 第 一 个 字符 则 需要 插入 如 号 ， 然 后 插入 双 引 号 。 


第 24 行 处 理 输出 普通 字符 后 输出 普通 字符 的 情况 ， 此 时 直接 将 字 
符 输 出 。 


第 25 行 判断 输出 的 普通 字符 是 否 是 最 后 一 个 字符 ， 如 采 十 则 输出 
is 


第 29 行 输出 字符 串 结 束 标记 ， 即 逗号 和 数字 0。 


过 这 样 的 转换 ， 字 符 扣 “thellonworld! ”被 转化 为 如 下 形式 : 


9, "hello",10, "world",0 


其 中 9 为 制 表 符 的 ASCII 码 ，10 为 换行 符 的 ASCII 码 ，0 为 字符 串 结 
束 标记 。 


在 描述 数据 段 生 成 之 前 ， 需 要 了 解 NASM 谍 编 的 数据 定义 语法 : 


<label> [times] <len> <value> 


其 中 ， 


重 


se 


子 - 


1) label 部 分 表示 任意 的 合法 标识 符 ， 


般 


2) times 可 选 部 分 表示 后 面 数据 的 重复 次 数 ， 比 如 “times 100” 表 示 


复 100 次 ， 一 般 用 于 定义 数组 。 


3) len 部 分 指 单位 内 存 大 小 ，“db” 表 示 一 个 字 节 、“dw” 表 示 两 个 


>" 有 不 四 路 守信 


4) value 部 分 表示 初始 值 ， 初 始 值 可 以 是 整数 常量 ， 可 以 是 标识 


， 也 可 以 是 上 述 NASM 格 式 的 字符 串 。 
例如 以 下 全 局 变量 定义 。 


char ch 
量 未 初始 化 ， 初 始 值 为 


0 
Int Var=100 ; 
初始 化 


TAY LS)? 
始 值 


0 
char*str="hello"; 
串 常量 名 称 为 


Q@LO” 


使 用 NASM 的 数据 定义 语法 表示 为 : 


ch db 0 
/Vch， 
1 字 节 ， 初 值 


// 变 


/ /变量 已 


/ /全 局 数组 的 初 


/ /假设 字符 


var dd 100 
//Vvar., 


4 字 节 ， 初 值 


100 
array times 255 dd 0 //array. 


255x4 字 节 ， 初 值 
0 

str dd @LO 
//str., 

4 字 节 ， 初 值 


Q@LO 
@LO db "hello",0 //Q@LO 


6 字 节 ， 初 值 “ 


hello” 


我 们 发 现 NASM 语 法 定义 的 数据 长 度 实 际 是 times、len 和 value 三 者 


长 度 的 乘积 。 


数据 段 生成 实现 代码 如 下 : 


1 void SymTab::genData 


(){ 
2 vector<Var*> glbVars=getGlbVars 
(); / /全 局 变量 


3 for(unsigned int i=0;i<glbVars.size();i++){ 

4 Var*var=glbVars[i]; 

5 fprintf(file,"global %s\n",var->getName().c_str()); 
6 fprintf(file,"\t%s ",var->getName().c_str()); 

7 int typeSize=var->getType()==KW_CHAR?1:4; 

8 If(var->getArray( ) ) 

//times 100 


9 fprintf(file,"times %d ",var->getSize()/typeSize),; 

10 const char* type=var->getType()==KW_CHAR&&IVar->getPtr() 

11 ?"db":"dd"; 

12 fprintf(file,"%s ",type); //db 
dd 

13 if(!var->unInit()){ 

/ /初始 值 

14 if(var->isBase()) 

/ /基本 类 型 


15 fprintf(file,"%d\n",var->getVal()); 

16 else 

/ /字符 指针 

17 fprintf(file,"%s\n",var->getPptrVal().c_ str()); 


} 
19 else 


20 fprintf(file, "OO\n"); 

21 

22 hash_map<string,Var*,string_hash>::iterator StrIt， 
23 strEnd=strTab.end(); 

/ /常量 字 符 串 

24 for(strIit=strTab.begin();strIit!=strEnd;++strIt)t{ 
25 Var*str=strIt->second; 

26 fprintf(file, 

27 "\t%s db %s\n", 

28 str->getName().c_str(), 

29 str->getRawStr 

().c_str()); //str db "abc",0 
30 

31 } 


第 2~21 行 处 理 全 局 变量 的 翻译 ， 第 22~30 行 处 理 常 量 字 符 串 的 翻 


译 o 

第 5~6 行 使 用 global 声 明 变 量 名 为 全 局 符号 ， 并 输出 变量 名 作为 
label 部 分 。 第 7~9 行 处 理 数组 ， 输 出 times 部 分 ， 第 10~12 行 处 理 内 存单 
位 大 小 ， 输 出 len 部 分 ， 第 13~21 行 处 理 变 量 的 初 值 ， 输 出 value 部 分 


第 14~15 行 处 理 基 本 类 型 变量 的 初 值 ， 调 用 getVal， 输 出 变量 的 
值 。 


第 17 行 处 理 字符 指针 变量 的 初 值 ， 调 用 getPtrVal， 输 出 字符 串 常 
量 的 名 称 。 


第 20 行 处 理 未 初始 化 的 变量 ， 输 出 初 值 0。 


第 26~29 行 输出 销量 字符 串 的 名 称 、db 和 字符 串 的 NASM 格 式 字 符 
串 内 容 。 


经 过 目标 代码 生成 和 数据 段 生 成 ， 源 代码 被 翻译 为 NASM 格 式 的 
x86 谍 编 指令 程序 ， 接 下 来 将 代码 段 和 数据 段 整合 ， 输 出 到 汇编 文件 。 


1 void SymTab: :genAsm 


() 

2 误 

3 fprintf(file, "section .data\n"); / /数据 段 
4 genData 

() 

5 fprintf(file,"section .text\n"); // 代 
码 段 

6 hash_map<string, Fun*, string_hash>::iterator funIt, 

7 funEnd=funTab ,end( ) ， 

8 for(funIt=funTab ,begin();funIt!=funEnd;++funIt ){ 

9 Fun*fun=funIt->second; 

10 fprintf(file,"global %s\n",fun->getName().c_str()); 

11 fprintf(file,"%s:\n",fun->getName().c_str()); 

12 vector<InterIinst*>&code=fun->getIinterCode(); 

13 vector<InterInst*>::iterator instIt,instEnd=code.end!(); 
14 for(instIt=code.begin();instIt!=instEnd;++instIt)t{ 

15 (*instIt)->tox86 

(); 

16 } 

17 } 

18 } 


第 3~4 行 输出 “section.data” 声 明 数 据 段 ， 并 调用 genData 输 出 数据 段 


第 5 行 输出 “section.text” 声 明代 码 段 ， 第 8~15 行 壳 历 函 数 表 funTab 
输出 每 个 函数 的 代码 。 


第 10~11 行 使 用 global 声 明 函 数 名 为 全 局 符号 (我 们 认为 函数 是 全 
局 可 见 的 ， 输 出 函数 名 ， 并 以 冒号 结束 ， 表 示 画 数 起 始 地 址 。 第 12 
行 获取 函数 的 中 间 代 码 。 


第 13~16 行 忆 历 函数 的 中 间 代 码 ， 并 调用 toX86 将 中 间 代 码 转 化 为 
Xx86 汇 编 代 码 。 


3.6 ”本 章 小 结 


本 章 我 们 根据 已 设计 的 编译 器 结构 ， 分 别 从 词法 分 析 、 语 法 分 
析 、 符 号 表 管理 、 语 义 分 析 和 代码 生成 的 角度 描述 了 一 个 位 单 的 编译 
右 实 现 。 从 大 量 的 实例 代码 中 ， 可 以 发 现 编译 右 实 现 的 每 一 个 细 科 。 
男 外 从 实现 编译 器 的 过 程 中 不 仅 能 解 开 高 级 语言 层面 的 很 多 疑惑 ， 还 
能 加 深 对 计算 机 程序 工作 机 制 的 理解 ， 这 对 理解 计算 机 工作 原理 的 本 
质 是 非常 重要 的 。 


按照 本 章 摘 述 的 编译 右 实 现 ， 我 们 发 现 生成 的 汇编 代码 楷 琐 而 元 
长 ， 有 些 代 码 甚 至 十 没有 必要 存在 的 。 在 第 4 草 ， 我 们 将 阐述 如 何 使 用 
优化 技术 使 编译 右 生 成 的 目标 代码 更 简 涪 、 高 效 。 


第 4 和 章 ”编译 优化 
如 切 如 磋 ， 如 琢 如 磨 。 
一 一 《诗经 》 


没有 编译 优化 功能 的 编译 右 生 成 的 代码 存在 大 量 的 见 余 ， 无 论 是 
生成 的 中 间 代 码 还 是 生成 的 目标 汇编 代码 。 


例如 ， 在 中 间 代 码 生 成 的 过 程 中 ， 对 于 源 代码 表达 式 


a=1+2+3; 


生成 的 中 间 代 码 形式 为 (为 了 更 清晰 地 表达 中 间 代 码 指 令 的 含义 ， 我 
们 将 四 元 式 *<op，result，arg1，arg2>” 表 示 为 “result=argl op arg2” 的 形 
式 ， 其 中 操作 符 op 选 用 常用 的 运算 符 代 替 ) : 


t2=t1+3 
a=t2 


我 们 发 现 表达 式 “a=1+2+3; ”的 实际 效果 是 “a=6; ”， 而 且 在 编译 
时 期 ， 完 全 可 以 计算 出 临时 变量 tL=3、t2=6。 我 们 希望 通过 中 间 代 码 
优化 后 ， 可 以 将 上 述 三 条 中 间 代 码 指令 缩减 为 一 条 。 


这 样 的 中 间 代 码 优 化 方式 称 为 常量 传播 ， 即 将 变量 的 常量 初 值 传 
递 到 使 用 变量 的 表达 式 中 ， 尽 可 能 计算 出 表达 式 的 值 ， 并 依次 将 变量 
的 值 传播 下 去 ， 达 到 简化 代码 的 目的 。 除 了 第 量 传播 ， 后 面 还 会 介绍 
复写 传播 、 死 代码 消除 等 优化 算法 的 实现 。 


在 目标 代码 生成 过 程 中 ， 也 存在 元 余 的 情况 ， 如 中 间 代 码 指令 : 


a=b+c 


生成 的 目标 汇编 代码 形式 为 (假设 变量 a、b、c 都 是 全 局 int 类 型 变 


mov eax, [al] 
mov ebx, [b] 
add eax, ebx 
mov [c],eax 


ODP 


我 们 发 现 第 2、3 条 汇编 指令 可 以 用 一 条 指令 代 蔡 ， 上 壕 汇 编 代码 
被 转化 为 如 下 形式 : 
mov eax, [al] 


add eax, [b] 
mov [c],eax 


CN 上 


这 样 的 目标 代码 优化 方式 称 为 颖 孔 优 化 ， 即 通过 发 现 指令 模式 ， 
使 用 单一 的 指令 代 和 众多 条 功能 等 价 的 指令 ， 从 而 达到 简化 代码 的 目 
的 。 


在 第 2 草图 2-9 中 描述 的 现代 编译 需 结 构 中 ， 将 编译 万分 为 前 端 、 
优化 磊 和 后 端 三 个 部 分 。 编 译 吉 的 后 端 包 售 了 指令 选择 、 寄 存 硕 分 配 
和 指令 调度 ， 本 质 上 筷 们 与 代码 的 优化 妃 轧 相关。 我 们 着 重 描述 寄存 
郁 分 配 的 实现 ， 对 指令 选择 和 指令 调度 不 做 说 明 ， 对 此 感 兴趣 的 读者 
可 以 参考 其 他 编译 器 相关 资料 进行 学 习 。 


基于 以 上 的 讨论 ， 我 们 对 优化 右 的 设计 如 图 4-1 所 示 。 


寄存 器 分 配 


死 代码 消除 


目标 代码 


图 4-1 优化 万 结构 


根据 3.5 世 中 的 描述 ， 中 间 代 码 经 过 目标 代码 生成 被 翻译 为 目标 汇 
编 代 码 。 因 此 ， 编 译 优 化 分 为 中 间 代 码 优化 和 目标 代码 优化 两 个 首 
分 。 如 图 4-1 所 示 ， 在 我 们 实现 的 优化 絮 中 ， 中 间 代 码 优 化 经 过 常量 传 


播 、 复 写 传播 和 死 代码 请 除 三 个 过 程 。 寄 存 套 分 配 可 以 选择 在 目标 代 
码 生 成 之 前 进行 ， 即 为 中 间 代 码 分 配 寄 存 上 器。 目标 代码 优化 由 顷 筷 优 
化 实现 。 


4.1 数据 流 分 析 


中 间 代 码 优化 一 般 是 在 数据 流 分 析 的 基础 上 进行 的 ， 且 满足 通用 
的 数据 流 分 析 框 架 。 


如 图 4-2 所 示 ， 中 间 代 码 优 化 首先 为 中 间 代 码 构 造 流 图 (控制 流 
图 ) ， 然 后 对 流 图 进行 数据 流 分 析 ， 并 获得 需要 的 数据 流 信息 ， 最 后 
根据 数据 流 信息 指导 中 间 代 码 的 优化 。 数 据 流 分 析 处 理 的 对 象 是 流 
图 ， 因 此 在 进行 数据 流 分 析 之 前 ， 需 要 了 解 流 图 的 构造 。 


米 { 站 > 位 自 
数据 流 分 析 数据 流 信息 


流 图 构造 


图 4-2 ”基于 数据 流 分 析 的 中 间 代 码 优化 


4.1.1 流 图 


流 图 是 有 向 有 环 图 ， 满 足 图 数据 结构 的 基本 性 质 。 一 般 包 含 一 个 
入 口 市 点 和 一 个 出 口 节 后， 流 图 的 走 同 尽 古 从 入 口 太 后 a 到 出 口 太太 ， 
是 流 图 中 允许 出 现 环 。 流 图 的 节操 称 为 基本 块 ， 流 图 的 边 表 示 基 本 块 
间 的 跳 转 关系 。 


为 了 构造 流 图 ， 需 要 了 解 首 指令 的 概念 。 中 间 代 码 的 首 指令 定义 
如 下 : 


1) 第 一 条 指令 。 


2) 跳 转 指令 的 目标 指令 。 


3) 紧 跟 跳 转 指令 之 后 的 指令 。 


中 间 代 码 首 指令 和 下 条 百 指令 前 的 所 有 指令 组 成 的 整体 称 为 基本 
块 。 根 据 首 指令 的 定义 可 以 确定 ， 基 本 块 内 的 指令 是 顺序 执行 的 ， 不 
存在 跳 转 分 文 。 


如 图 4-3 所 示 ， 男 数 f 的 实现 代码 被 翻译 为 中 间 代 码 。 在 中 间 代 码 
中 ， 根 据 间 指令 的 定义 ， 指 令 0 二 第 一 条 指令 ， 指 令 4 和 指令 10 坪 跳 较 
指令 的 目标 指令 ， 指 令 6 紧 跟 跳 转 指令 5 之 后 ， 因 此 指令 0、4、6、10 走 
目 指 令 。 根 据 基本 块 的 定义 ， 流 图 共 包 含 4 个 基本 块 ， 对 应 的 指令 编号 


序列 分 别 为 “指令 0~3”、“ 指 令 4~5”、“ 指 令 6~9” 和 “指令 10”。 为 了 保证 
流 图 仅 包 含 一 个 入 口 和 一 个 出 口 ， 在 流 图 开始 处 添加 入 口 基本 块 
Entry， 在 流 图 结束 处 添加 出 口 基本 块 Exit。 入 口 和 出 口 基本 块 恰好 与 
中 间 代 码 指令 OP_ ENTRY 和 OP_EXIT 对 应 ， 因 此 将 这 两 条 指令 分 别 作 
为 独立 的 基本 块 。 


Lt 


if(la)goto L2 
decL3 

L3=a+b 

ft 

goto LI 


a) 源 代码 b) 中 间 代 码 c) 流 图 


图 4-3 ” 流 图 构造 


Q=1; 
/hile (af 


c=a+b:; 


接 下 来 讨论 流 图 构造 的 实现 ， 首 先是 首 指 令 的 标识 。 


1 void InterCode: :markFirst 


(){ 
2 


指令 


unsigned int len=code.size(); / /最 少 两 条 


3 code[0]->setFirst(); 
//OP_ENTRY 


4 code[len-1]->setFirst(); 
//OP_EXIT 
5 code[1]->setFirst(); // 第 


一 条 


6 for(unsigned int i=1;i<l]len-1;++i){ 
7 if(code[i]->isJmp()||lcode[i]->isJcond())t{ 
8 code[i]->getTarget()- 


setFirst(); // 跳 转 


9 code[i+1]->setFirst(); 
// 紧 跟 跳 转 


2 
2 
cm 


变量 code 是 Vector<InterInst*> 类 型 ， 记 有 好 了 函数 所 有 的 中 间 代 码 。 
在 中 间 代 码 生 成 时 ， 无 论 函 数 体 是 否 为 宝 ， 总 是 生成 男 数 入 口 指 令 
OP_ENTRY 和 画 数 出 口 指 令 OP EXIT 。 因 此 ，code 内 至 少 包 含 两 条 指 


A 


由 于 需要 构造 基本 块 Entry 和 Exit， 因 此 第 3~4 行 将 code 的 第 一 条 和 
最 后 一 条 指令 标识 作为 首 指令 。setFirst 函 数 设 置 了 指令 InterInst 对 象 的 
first 字 段 。 第 5 行 的 code[1] 是 函数 内 真正 的 第 一 条 指令 ， 满 足 首 指令 的 
条 件 1， 因 此 需要 标识 为 首 指令 。 


第 6~11 行 处 理 首 指令 的 条 件 2 和 3， 第 7 行 判断 指令 code[i 是 否 是 路 
转 指 令 ，isJmp 表 示 无 条 件 跳 转 指 令 ，isJcond 表 示 条 件 跳 转 指 令 。 第 8 行 
将 跳 转 指令 的 目标 指令 标识 为 站 指令 ， 第 9 行将 跳 转 指令 后 紧 跟 的 指令 
标识 为 站 指令 。 


完成 中 间 代码 code 的 首 指令 标记 后 ， 便 可 以 基于 首 指令 生成 流 
图 。 流 图 构造 涉及 的 关键 数据 结构 和 字段 如 下 : 


1 class Block 

{ 

2 public: 

3 list<InterIinst*> insts; // 指 令 序 列 
4 list<Block*>prevs,; // 前 驱 
5 list<Block*>succs,; / /后继 


6 }; 
7 class DFG 


8 【 
9 public: 
10 Vector<InterInst*> codelist,; // 中 间 代 码 


11 vector<Block*>blocks; // 所 有 基本 块 


其 中 Block 类 表示 基本 块 ，DFG 类 表示 流 图 。DFG 的 codeList 子 段 记 
录 构 造 流 图 的 中 间 代 码 ，blocks 字 有 段 记录 所 有 的 基本 块 。Block 的 insts 字 
段 记录 基本 块 内 所 有 的 指令 序列 ，prevs 字 段 记录 基本 块 的 所 有 前 驱 ， 
即 直接 到 达 该 基本 块 的 所 有 基本 块 ，succs 字 段 记录 基本 块 的 所 有 后 
继 ， 即 该 基本 块 直接 到 达 的 所 有 基本 块 。 基 于 这 样 的 设计 ， 我 们 分 两 
步 实现 流 图 的 构造 : 先 根 据 首 指令 构造 基本 块 对 象 ， 再 确定 基本 块 对 
象 间 的 前 驱 和 后 继 关 系 。 


基本 块 对 象 的 构造 实现 如 下 : 


1 void 


()E 
2 
时 列表 


下 
心 


等 OO 上 


7 
/ /清除 临时 列表 


8 
9 


10 } 


DFG: :createBlocks 


vector<InterIinst*>tmpList; 
tmpList.push_back(codeList[0]); 


for(unsigned int i=1;i<codeList.size();++i){ 
if(codeList[i]->isFirst())t{ 
blocks.push_back(new Block(tmpList)); 


tmpList.clear(); 


} 
tmpList.push_back(codeList[i]); 


11 blocks.push_back(new Block(tmpList)); 


4 


// 临 


/ /第 一 条 


/ /添加 基本 


/ /添加 指 


/ /最 后 的 基本 块 


构造 基本 块 时 ， 使 用 mpList 缓 存 每 个 基本 块 内 的 指令 序列 。 


第 3 


指令 。 


行将 第 一 条 指令 (OP_ENTRY) 添加 到 tmpList 中 ， 该 指令 是 首 


第 4~10 行 处 理 后 继 的 指令 。 第 5 行 判断 指令 如 有 果 是 首 指令 ， 则 根据 
tmpList 内 缓存 的 指令 创建 基本 块 ， 然 后 清空 tnpList。 第 9 行将 新 的 首 指 
令 或 后 继 指 令 添 加 到 tmpList 。 


第 11 行 添加 最 后 一 个 基本 块 Exit 〈 仅 包含 指令 OP_EXIT) 。 


根据 tmpList 创 建 基本 块 的 流程 为 : 


1 Block::Block 


(vector<InterInst*>&codes){ 


2 for(unsigned int i=0;i<codes,.size();++i)f{ 

3 codes[i]->block=this; // 记 录 指令 所 在 的 基本 块 
4 insts.push_back(codes[i]); / /转换 为 

list 

5 } 

6 } 


Block 的 insts 字 段 是 list<InterInst*> 类 型 ， 而 tmnpList 是 
vector<InsterInst*> 类 型 ， 因 此 需要 逐个 添加 指令 到 insts 中 。 除 此 之 外 ， 
将 指令 的 block 字 段 设 置 为 当前 基本 块 ， 以 便于 通过 指令 直接 访问 基本 
块 。 


确定 基本 块 前 弛 和 后 继 关 系 的 过 程 称 为 连接 基本 块 ， 实 现 如 下 : 


1 void DFG::linkBlocks 


()t 
2 for (unsigned int i = 0; i < blocks.size(); ++i)f{ 
3 InterIinst*last=blocks[i]->insts.back(); // 基 本 
块 最 后 指令 
4 if(last->isJmp()||last->isJcond()){ // 
跳 转 
5 Block*tar=]last->last->getTarget( )- 
block; / /目标 基本 块 
6 blocks[i]->succs.push_back(tar); 
/ /后 继 
7 tar->prevs.push_back(blocks[i]); 
// 前 驱 
8 } 
9 if(!last->isJmp()&&i!=block.size()-1){ / /顺序 


10 blocks[i]->succs.push_back(blocks[i+1]); // 后 


半生 blocks[i+1]->prevs.push_back(blocks[i]); // 前 


第 4 行 判断 last 如 果 是 跳 转 指 令 ， 则 取出 last 的 目标 指令 所 在 的 基本 
块 tar， 并 更 新 当前 基本 块 blocks[i] 的 后 继 和 tar 的 前 驱 。 


第 7 行 判断 last 如 生 不 生 直 接 跳 较 指令 ， 且 不 是 最 后 一 个 基本 块 
(最 后 一 个 基本 块 不 会 有 后 继 ) ， 则 更 新 当前 基本 块 blocks[i 的 后 继 和 
紧 接 着 下 个 基本 块 blocks[i+1] 的 前 驱 。 


经 过 createBlocks 和 linkBlocks 的 处 理 ，DFG 内 保存 了 流 图 的 完整 信 
自 。 


/JU 


4.1.2 ”数据 流 分 析 框 染 


基于 流 图 的 数据 流 分 析 是 面 同 问题 的 ， 不 同 的 问题 要 求 ， 其 数据 
流 分 析 的 实现 也 不 尽 相 同 。 例 如 ， 对 于 图 4-3 的 流 图 ， 假 定 需要 根据 数 
据 流 分 析 统 计 画 数 执行 时 最 少 执行 的 中 间 代 码 指令 数 (包含 标签 指 


人 ) 。 


如 图 4-4 所 示 ， 统 计 最 少 执行 指令 个 数 需 要 按照 代码 的 执行 顺序 进 
行 计算 ， 而且 只 关注 基本 块 出 口 处 (out) 计算 的 指令 个 数 。 


初始 化 阶段 ， 每 个 基本 块 的 out 都 需要 一 个 初 值 。 对 于 Entry 入 口 
块 ， 其 初 值 为 1， 表 示 已 经 执行 了 OP_ENTRY 指 令 。 对 于 其 他 基本 块 ， 
初 值 为 最 大 正 整 数 (inf) ， 这 是 因为 需要 计算 最 少 指令 个 数 。 


初始 化 完毕 后 ， 依 次 更 新 每 个 基本 块 〈 除 了 Entry 块 ) 的 out 值 ， 每 
次 处 理 完 所 有 基本 块 称 为 一 和 处 理 。 每 一 届 处 理 时 ， 总 是 按照 如 下 原 
则 进行 计算 : 


B.in=min (所 有 B 的 前 驱 .out) 


B.out=B.in+B 的 指令 数 


© 
©® 
L3=a+b 
@ c=L3 
gofo L1 
© 
© 


图 4-4 最少 指令 数 数据 流 分 析 


例如 第 一 过 处 理 时 ， 基 本 块 2 只 有 一 个 前 红 基 本 块 9， 因 此 其 in 值 为 
基本 块 0 的 out 值 1°。 基本 块 2 包含 4 条 指令 ， 因 此 基本 块 2 的 out 值 为 其 in 值 
加 上 基本 块 2 的 指令 数 ， 结 末 为 5。 而 对 于 基本 块 3， 其 有 了 两 个 前 驱 基 本 
块 2 和 4， 基 本 块 2 和 4 的 out 值 分 别 为 5 和 inf， 取 最 小 值 为 5。 基本 块 3 包 
含 2 条 指令 ， 因 此 基本 块 3 的 out 值 为 其 in 值 加 上 基本 块 3 的 指令 数 ， 结 末 
为 7。 按 照 这 样 的 方式 依次 计算 其 他 基本 块 的 值 ， 基 本 块 4 的 out 值 为 
11， 基 本 块 5 的 out 值 为 8，Exit 块 的 out 值 为 9。 


由 于 第 一 所 处 理 后 ， 存 在 基本 块 的 out 值 被 更 新 的 情况 ， 需 要 第 二 
所 处 理 。 而 第 二 所 处 理 后 ， 所 有 基本 块 的 out 保 持 不 变 ， 因 此 终结 数据 


流 分 析 的 过 程 。 这 样 不 断 地 循环 进行 多 遍 处 理 ， 直 到 运算 结果 保持 稳 
定时 终止 计算 的 过 程 ， 称 为 迭代 不 动 点 计算 。 最 终 ，Exit 基 本 块 的 out 
值 便 是 最 少 执行 指令 的 个 数 ， 即 9 条 ， 从 数据 流 图 中 不 难看 出 这 一 点 ， 
执行 路 径 经 过 的 基本 块 为 1、2、3、5、6。 


从 上 述 例子 中 ， 可 以 看 出 数据 流 分 析 需 要 考虑 如 下 基本 要 素 : 


1) 数据 流 方 向 。 数 据 分 析 过 程 是 与 代码 执行 顺序 相同 ( 称 为 前 
向 ) 还 是 相反 ( 称 为 逆向 ) 。 


2) 值 集 。 包 含 初 值 和 数据 流 分 析 中 使 用 的 值 。 就 初 值 而 言 ， 对 于 
前 向 数据 流 ， 即 Entry 块 的 out 初 值 和 其 他 基本 块 的 out 初 值 。 对 于 逆向 数 
据 流 ， 则 是 Exit 的 in 值 和 其 他 基本 块 的 in 值 。 一 般 称 前 者 为 边界 集合 ， 
后 着 为 初 值 集合 。 


3) 交汇 函数 。 对 于 前 向 数据 流 ， 在 计算 基本 块 n 值 时 ， 如 果 基 本 
块 有 多 个 前 驱 ， 则 需要 提供 一 种 计算 方式 将 前 驱 的 out“ 合 并 ”。 对 于 逆 
癌 数据 流 ， 在 计算 基本 块 out 值 时 ， 如 有 果 基 本 块 有 多 个 后 继 ， 则 需要 提 
供 一 种 计算 方式 将 后 继 的 in“ 合 并 ”。 


4) 传递 画 数 。 对 于 前 向 数据 流 ， 需 要 提供 一 种 计算 方式 将 基本 块 
的 in 值 转化 为 基本 块 out 值 。 对 于 前 问 数 据 流 ， 则 需要 提供 一 种 计算 方 
式 将 基本 块 的 out 值 转化 为 基本 块 的 in 值 。 


以 上 数据 流 分 析 的 基本 要 素 是 所 有 数据 流 分 析 所 共有 的 ， 一 般 称 
为 数据 流 分 析 框 名 。 数 据 流 分 析 框 碎 生 数据 流 分 析 问 题 的 抽象 ， 与 具 
体 问题 无 天 。 不 同 问题 的 数据 访 分 析 只 是 上 述 基 本 要 又 不 同 。 


对 于 数据 流 分 析 框 架 ， 其 形式 化 定义 为 一 个 四 元 组 (D,，V, A 人， 
F) 。 其 中 DD 为 数据 流 分 析 的 方向 ， 分 为 前 向 和 逆向 。V 为 半 格 的 值 
集 ， 为 数据 流 信 息 的 全 集 。 信 为 半 格 的 交汇 运算 ， 用 于 合并 不 同 路 径 的 
数据 流 信息 。F 为 数据 流 图 基本 块 的 传递 函数 集合 ， 定 义 了 数据 流 信息 
经 过 基本 块 后 的 变化 规则 。 通 币 使 用 数据 六 方 程 表示 一 个 具体 的 数据 
尝 问 题 ， 前 同和 逆向 数据 流 方程 的 基本 形式 如 下 : 


Entry.out—=VEntry ExXit.1N=VEyit 
放 向 B.out=T 洲 向 B.in=T 
中 | 2 Bal [a = i 
Hh B.in= 人 peprec(B)(P-Out) = B.out= 作 sesucc(B)(S-1n) 


B.out=fp(B.in) B.in=fp(B.out) 


其 中 Entry 表 示 入 口 基本 块 ，Exit 表 示 出 口 基 本 块 ，B 表 示 一 般 的 基 
本 块 。v 表 示 边 界 集 合 ，T 表 示 初 值 集合 ， 它 们 都 是 半 格 值 集 V 的 元 素 。 
A 符 号 表示 交汇 运算 ， 包 表示 基本 块 B 的 传递 画 数 。 对 于 一 个 具体 的 数 
据 流 问题 ， 只 需要 确定 数据 流 框 架 四 元 组 \D，V，A，F) 的 值 ， 其 中 
值 集 V 包 含 边界 集合 v 和 初 值 集合 TI。 例如 上 述 求 最 少 执行 指令 数 的 问 
题 ， 其 数据 流 方 程 为 : 


Entry.out=1 

i B.out=1nf 

本 问 me 
B.in=minpeprec(B)(P.out) 


B.out=B.in+B.num 


其 中 B.num 表 示 基 本 块 B 的 指令 个 数 。 由 此 可 以 确定 数据 流 框 架 的 
基本 要 素 的 值 : D 为 前 向 、V 为 正 整数 集合 (边界 值 y 为 1， 初 值 T 为 最 
大 正 整 数 inf) 、A 为 最 小 值 运算 min、 包 为 计算 公式 


B.out=B.in+B.num ° 


根据 数据 流 方 程 ， 很 容易 实现 数据 流 分 析 。 前 问 数 据 流 分 析 实 现 
的 伪 代 码 如 下 : 


Entry .out=Ventry 


/ /初始化 
Entry .out 
for(B!=Entry)B.out=T // 初 始 化 
B.out 
while(B.out changed) / /和 迭代 不 动 点 计算 
for(B!=Entry){ / /遍历 基本 块 

B 

B.In=A^ 
pEprec(B) 
(p.out) // 计 算 
B.in 

B.out=fe 
(B.in) // 计 算 
B.out 


类 似 地 ， 逆 同 数 据 流 分 析 实 现 的 伪 代 码 如 下 : 


Exit .in=Vexit 
/ /初始 化 


Exit.in 
for(B!=Exit)B.in=T / /初始 化 


B.in 


while(B.in changed ) 
动 点 计算 


for(B!=Exit){ 
本 块 
B.out=n 
SESUCSC(B) 
(s.in) 


B.out 
B. in=fe 


(B.out) 


B.in 


} 


上 述 讨论 的 求 最 少 执行 指令 数 的 数据 


Entry.out=1 


Entry,oOut 
for(B!=Entry)B.out=-1 


B.out 
while(B.out changed) 


for(B!=Entry)t{ 


B.in=minpEéEprec(B) 

(p.out) 

B.in | 
B.out=B,In+B.num 

B.out 


最 终 计 算 结 末 保 存在 Exit.out 内 。 


// 计 算 


// 选 代 不 


/ /遍历 基 


// 计 算 


// 计 算 


流 分 析 实 现 的 伪 代 码 如 下 : 


/ /初始 化 


/ /初始 化 


/ /和 迭代 不 动 点 计算 


/ /遍历 基本 块 


// 计 算 


4.2 中 间 人 代码 优化 


中 间 代 码 优化 算法 一 般 是 基于 数据 流 分 析 框 以 实现 的 。 与 前 面 讨 
论 的 数据 流 问 题 示例 不 同 的 是 ， 实 际 编译 系统 中 的 中 间 代 码 优化 算法 
的 数据 流 框架 的 基本 要 素 内 容 更 多 样 ， 数 据 流 问题 摘 述 更 为 复杂 。 我 
们 使 用 常量 传播 、 复 写 传播 和 变量 活跃 性 的 数据 流 分 析 ， 完 成 对 应 的 
中 间 代 码 优化 。 


4.2.1 钊 量 传播 


音量 传播 利用 编译 时 可 以 确定 的 变量 值 代 奉 变量 ， 捉 前 进行 表达 
式 求 值 ， 消 除 不 必要 的 运算 指令 ， 因 此 常量 传播 需要 确定 程序 的 任意 
执行 护 处 变量 的 前 量 性 质 ， 即 变量 的 取 值 。 


UNDE 


NN 


图 4-5 ”整数 变量 取 值 半 格 
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图 4-5 搬 述 了 整数 变量 所 有 可 能 取 值 的 半 格 。 其 中 UNDEF 为 半 格 的 
最 大 值 ， 表 示 变 量 未 定义 (没有 初始 化 ) ; NAC 为 半 格 的 最 小 值 ， 表 
示 变 量 确定 无 常量 值 ， 其 他 值 为 变量 的 常量 值 。 半 格 最 大 下 界 运 算 人 的 
性 质 为 (运算 符 和 满足 交换 律 ) : 


1) 对 于 任意 值 v， 有 UNDEFAv=v， 且 NACAv=NAC。 
2) 对 于 和 常量 值 c， 有 cAc=c。 


3) 对 于 不 同 的 常量 值 c1、c2， 有 cl1Ac2=NAC。 


变量 取 值 半 格 的 最 大 下 界 运 算 用 来 合并 来 源 于 程序 不 同 分 文 的 同 
一 变量 的 取 值 ， 实 现 数据 流 分 析 的 交汇 运算 。 


我 们 根据 数据 流 分 析 框 染 四 要 素 讨 论 和 常量 传播 的 数据 流 分 析 框 
架 。 汕 量 传播 数据 流 分 析 框 架 定 义 为 : 


1) 数据 流 方向 D: 常量 传播 需要 沿 着 代码 执行 的 方向 计算 变量 的 
值 ， 因 此 是 前 癌 数 据 流 。 


2) 值 集 V: 常量 传播 需要 计算 函数 内 所 有 可 见 变量 的 常量 值 ， 包 
括 全 局 变量 、 参 数 变 量 和 局 部 变量 ， 因 此 常量 传播 的 数据 流 值 是 这 些 
变量 值 的 集合 。 由 于 是 前 同 数 据 流 ， 因 此 边界 集合 vauy 的 值 是 所 有 可 
见 变量 初始 值 的 集合 。 而 初 值 集 合 T 的 所 有 元 素 都 是 UNDEF， 即 将 变 
量 值 殉 认 为 半 格 的 最 大 值 。 边 寞 集合 与 初 值 集 合 都 生 值 集 V 的 元 素 ， 因 
此 值 集 V 为 可 见 变量 所 有 可 能 值 集 合 的 全 集 。 


1 ConstPropagation::ConstPropagation 


2 (DFG*g,SymTab*t,vector<Var*>&paraVar) 

3 :dfg(g)vtab(t){ 

4 vector<Var*>glbVars=tab->get6GlbVars(); 

5 int index=0; 

/ /变量 索引 

6 for(unsigned :int i=0;i<glbVars.size();++i)f{ / /全 局 变量 
7 Var*var=glbVars[i]; 

8 var->index=index++; 

9 vars.push_back(var); 

10 double val=0; 

11 if(!var->isBase())val=NACc; 

12 else if(!var->unInit())val=var->getVal(); 

13 boundVals.push_back(val); / /边界 


} 
15 for(unsigned int i=0;i<paraVar.size();++i)f{ / /参数 变量 


16 Var*Vvar=paravar[I]， 

17 var->index=ijndex++， 

18 vars.push_back(var); 

19 boundVals .push_back (NAC); / /边界 
值 

20 

21 for(unsigned int i=0;i<dfg->codeList.size();++i){ / /局 部 变量 

22 If(dfg->codeList[I]->isDec()){ 

23 Var*var=dfg->codeList[i]->getArg1(); 

24 var->index=index++; 

25 vars.push_back(var); 

26 double val=UNDEF; 

27 if(!var->isBase())val=NACc; 

28 else if(!var->unInit())val=var->getVal(); 

29 boundVals .push_back(val); / /边界 
值 

30 } 

31 

32 while(index--)initVals.push back(UNDEF); / /初始 值 

33 } 


常量 传播 的 构造 函数 ConstPropagation 计 算 了 变量 集合 vars、 边 界 集 
合 boundvVals 和 初 值 集合 initvals。 其 中 vars 中 记录 的 变量 对 象 与 
boundVals 和 initVals 中 的 值 一 一 对 应 。 


第 4~14 行 处 理 全 局 变量 的 值 。 其 中 第 10~12 行 中 ， 非 基本 类 型 变量 
边界 值 为 NAC， 已 初始 化 的 基本 类 型 变量 边界 值 为 变量 初始 值 ， 未 初 
台 化 的 全 局 变量 的 初 值 为 0， 因 此 边界 值 为 0。 


第 15~20 行 处 理 参数 变量 的 值 ， 函 数 的 参数 变量 由 团 数 调用 者 传递 
的 实际 参数 决定 。 我 们 不 考虑 过 程 间 的 代码 优化 问题 ， 无 法 确定 实际 
参数 的 常量 性 质 ， 因 此 保守 地 认为 参数 变量 的 边界 值 为 NAC。 


第 21~31 行 处 理 局 部 变量 的 值 ， 局 部 变量 都 是 使 用 OP_DEC 声 明 
的 ， 通 过 扫 摘 中 间 代 码 获 得 局 部 变量 的 定义 信息 。 第 26~28 行 中 ， 对 局 
部 变量 的 处 理 与 全 局 变量 类 似 ， 不 过 未 初始 化 局 部 变量 的 边界 值 为 
UNDEF 。 


第 32 行 将 初 值 集 合 元 素 全 部 初始 化 为 UNDEF 。 


3) 交汇 运算 A: 前 面 讨论 了 整数 取 值 半 格 的 数值 交汇 运算 ， 常 量 
传播 交汇 运算 的 对 象征 变量 值 集合 。 对 于 变量 值 集 合 A、B， 令 
C=AAB， 那 么 对 于 值 集合 的 任意 索引 i， 总 有 Ci =Ai ABi (其 中 运算 符 
和 A 为 整数 取 值 半 格 的 交汇 运算 ) 。 


1 _ double ConstPropagation: :join 


Ee left,double right){ 


if(1left==NAC| |right==NAC)return NAC; //NACn 
V=V 
3 else if(left==UNDEF)return right; //UNDEFA 
V=UNDEF 
4 else if(right==UNDEF)return left 
5 else if(left==right)return left,; //Cn 
C=C 
6 else return NAC; 
//c1n 
C2=NAC 
7 
8 void ConstPropagation: :join 
ee 
list<Block*>& prevs=block->prevs,; / /前驱 
10 Vector<double>& in=b1lock->inVals //in 
11 for(unsigned int i=0;i<in.size();++i){ / /处理 
in 集合 
12 double val=UNDEF; 
13 for (list<Block*>::iterator j=prevs.begin(); 


14 j!=prevs.end();++]j){ 


/ /处 理 前 驱 


15 val=join 


(val, (*j)->outVvals[i]); // 取 出 前 驱 


OUt 交 并 


} 
17 in[i]=val; 


2 
Oo 
cb 


第 1~7 行 的 双 参 数 join 函数 处 理 变 量 值 的 交汇 运算 ， 运 算 规 则 与 变 
量 取 值 半 格 的 交汇 运算 特性 一 致 。 


第 8~19 行 的 单 参 数 join 画 数 处 理 计算 基本 块 的 in 集 合 时 的 交汇 运 
算 。 第 11 行 依次 计算 in 集 合 的 每 一 个 元 素 的 值 ， 第 13~14 行 处 理 基 本 块 
block 的 每 一 个 前 驱 ， 第 15 行 取出 每 一 个 前 驱 基 本 块 的 out 集 合 对 应 的 过 
引 值 ， 并 调用 双 参 数 join 图 数 进 行 交 汇 运算 ， 第 17 行 将 运算 结 末 保存 到 
基本 块 的 in 集 合 。 


人 


之 


4) 传递 琅 数 集合 F:， 对 于 基本 块 B 的 传递 琢 数 但 ， 有 B.out= 包 
(B.in) 。 由 于 我 们 更 关心 每 条 指令 执行 前 后 变量 的 常量 性 质 ， 因 此 将 
每 条 指令 视 为 一 个 基本 块 ， 由 此 原 基本 块 B 的 传递 玉 数 便 十 指令 传递 画 
数 f 的 复合 。 对 于 基本 块 的 指令 s， 有 s.out=f。 (s.in) 。 其 中 ， 对 于 任 
意 可 见 变量 x， 其 对 应 的 常量 性 质 分 别 为 s.out[x] 和 s.in[x]。 指 令 传递 画 
数 f, 的 定义 如 下 。 


QQ 如 果 指 令 s 形 式 为 x=c，c 为 常量 ， 则 s.out[X]=c。 


(如 果 指 令 s 形 式 为 x<=y@z，@ 为 通用 运算 符 。 分 为 以 下 情况 : 
a. 若 s.in[y]=cl1，s.in[z]=c2，cl、c2 为 常量 ， 风 |s.out[x]=c1@c2: 
b. 若 s.in[y]=NAC 或 s.in[z]=NAC， 则 |s.out[x]=NAC: 


c. 其 他 情况 ，s.out[x]j=UNDEF 。 


@ 如 果 指 令 s 形 式 为 参数 传递 ， 且 参数 为 指针 类 型 ， 则 对 于 任意 可 
见 变 量 yv，s.out[vJ=-NAC。 我 们 保守 地 认为 丽 数 会 通过 指针 参数 修改 所 
有 可 见 变量 。 


(4) 如 果 指 令 s 形 式 为 xx=y， 则 对 于 任意 可 见 变 量 v，s.out[lv]=NAC。 
我 们 保守 地 认为 对 指针 内 容 的 修改 会 影响 所 有 可 见 变量 。 


(5) 如 果 指 令 s 形 式 为 x=*y， 则 s.out[x]=NAC 。 


@@ 如 果 指 令 s 形 式 为 call fun， 则 对 于 任意 全 局 变量 g， 
s.out[g=NAC 。 我 们 保守 地 认为 函数 调用 修改 任意 全 局 变量 。 


(如 果 指 令 s 形 式 为 x=call ftn， 则 对 于 任意 全 局 变量 g， 
s.out[g]=NAC 且 s.out[X]=NAC。 


(8 除了 以 上 情况 ， 对 于 任意 可 见 变 量 v，s.out[v]=s.in[v] 。 


日 令 传递 函数 f 的 实现 如 下 : 


1 void ConstPropagation::translate 


(InterIinst*inst, 

2 vector<double>& in,vector<double>& out ){ 

3 Oout=in,; 

/ /默认 

4 Operator op=inst->getop(); // 运 
算 符 

5 Var*result=inst->getResult(); / /结果 
6 Var*argi=inst->getArg1(); / /参数 
1 

7 Var*arg2=inst->getArg2(); / /参数 
2 

8 if(inst->isExpr()){ 

/ /表达 式 

X=y+Z 

9 double tmp 

/ /保存 

out [x] 

10 if(op==0P_AS| |op==0P_NEG| |op==0P_NOT){ // 一 元 运算 
11 if(argi->isLiteral()) 

//in[y] 

12 tmp=arg1->getVal(); 

13 else 

14 tmp=in[arg1->index]， 

15 if(tmp!=UNDEF&&tmp!=NAC){ 

16 if(op==OP_NEG)tmp=-tmp; 

17 else If(op==OP_NOT)tmp=!tmp， 

18 } 

19 } 

20 else if(op>=O0P_ADD&&op<=OP_OR){ // 二 元 运 
算 

21 double lp,rp; 

22 if(argi->isLiteral()) 

//in[y] 

23 lp=arg1->getVal(); 

24 else 

25 lp=in[argi->index]; 

26 if(arg2->isLiteral()) 

//in[z] 

27 if()rp=arg2->getVal(); 

28 else 

29 rp=in[arg2->index]; 

30 if(1p==NAC| |rp==NAC)tmp=NAC; 

//NAC 

31 else if(1p==UNDEF||rp==UNDEF)tmp=UNDEF; //UNDEF 
32 elsef 

//ci+c2 

33 int left=]lp,right=rp; 

34 if(op==O0P_ADD)tmp=left+right; 

35 else if(op==0P_SUB)tmp=left-right,; 

36 else if(op==0P_MUL)tmp=left*right,; 


37 else if(op==0P_DIV) 


38 {if(!right)tmp=NAC;else tmp=left/right;} 


39 else if(op==0P_MOD) 

40 {if(!right)tmp=NAC;else tmp=left%right;} 
41 else if(op==0P_GT)tmp=left>right; 
42 else if(op==0P_GE)tmp=left>=right,; 
43 else if(op==0P_LT)tmp=left<right; 
44 else if(op==0P_LE)tmp=left<=right,; 
45 else if(op==0P_EQU)tmp=left==right; 
46 else if(op==0OP_NE)tmp=left!=right,; 
47 else if(op==0P_AND)tmp=left&&right; 
48 else if(op==0P_OR)tmp=left||right,; 
49 } 

50 } 

51 else if(op==0P_GET) 

//X=*y 

52 tmp=NAC; 

53 out[result->index]=tmp; 

//out[x] 

54 } 

55 else If(op==OP_SET| | 

//*Xx=y 

56 op==O0P_ARG && larg1->isBase()){ //arg 
ptr 

57 for(unsigned int i=0;i<out.size();++i) 

58 out[i]=NAC; 


//out[v]=NAC 
59 


60 else If(op==OP_PROC ){ 


//call f 
61 for(unsigned int i=0;i<glbVars.size();++i) 
62 out[glbvars[i]->index]=NAC; 


//out[g]=NAC 
63 } 


64 else if(op==OP_CALL){ 
//x=call f() 


65 for(unsigned int i=0;i<glbVars.sizel();++i) 
66 out[glbvars[i]->index]=NAC; 

//out[g]=NAC 

67 out[result->index]=NAC; 


//out[x]=NAC 
68 } 


69 inst->inVals=in; 
70 inst->outVals=out,; 
71 } 


第 3 行 默 认 将 in 集 合 传递 给 out 集 合 ， 后 面 根据 判断 特殊 情况 指令 再 


修改 out 。 


第 4*7 行 获取 四 元 式 的 基本 有 要么 。 第 8~54 行 处 理 形 如 x=c 和 x=y@z 
的 表达 式 。 第 55~68 行 处 理 其 他 特殊 的 指令 。69~71 行 将 计算 的 mn 和 out 
集合 保存 到 指令 对 象 。 


第 10~19 行 处 理 一 元 运算 表达 式 赋值 、 取 负 、 取 反 。 第 11~14 行 取 
出 操作 数 的 利 量 值 ， 如 果 argl 是 音量 则 调用 getVal 取 出 利 量 值 记录 到 
tmp， 人 否则 从 in 集 合 取 出 常量 值 。 第 15~18 行 根据 操作 符 计 算 表达 式 结 
果 。 


第 20~50 行 处 理 二 元 运算 表达 式 。 第 22~29 行 取出 两 个 操作 数 的 各 
量 值 ， 分 别 保存 到 jp 和 rp“。 第 30 行 表示 有 操作 数 常 量 值 为 NAC， 因 此 计 
算 结 采 tmp 为 NAC。 第 31 行 表示 有 操作 数 弟 量 值 为 UNDEF， 因 此 计算 
结果 为 UNDEF。 第 32 行 表示 操作 数 都 是 常量 ， 需 要 根据 操作 符 计算 表 
达 式 结果 。 


第 51~52 行 处 理 形 如 x=*y 的 表达 式 ， 因 为 无 法 确定 *y 的 值 ， 所 以 x 
的 常量 值 为 NAC 。 


第 53 行 将 计算 的 常量 值 保存 到 out 集 合 。 


第 55~59 行 处 理 参数 表达 式 和 形 如 *x=y 的 表达 式 ， 其 中 第 55~56 行 
表明 车 表达 式 是 指针 运算 赋值 形式 或 参数 为 非 基 本 类 型 ， 则 将 out 和 集合 
所 有 元 素 置 为 NAC 。 


第 60~68 人 处理 函数 调用 ，OP_PROC 和 OP_CALL 形 式 的 函数 调用 都 
会 将 全 局 变量 对 应 的 out 和 集合 元 素 置 为 NAC， 而 且 OP_CALL 画 数 调 用 会 
将 函数 返回 值 对 应 的 out 集 合 元 素 置 为 NAC。 


会 


基本 块 传递 画 数 fp 的 实现 为 : 


1 bool ConstPropagation::translate 


(Block*block){ 

2 vector<double>in=block->inVals; //in 
3 vector<double>out=in; 

//out=in 

4 for(list<InterIinst*>::iterator i=block->insts.begin(); 

5 i!=block->insts.end();++i){ / /处 
理 指令 

6 InterInst*inst=*1i; 

7 translate 

(inst, in,out); / /指令 传 递 画 数 

8 In=out ， 

/ /下 条 指令 的 

In 

9 } 

10 bool flag=false; 

//OUt 集 合 是 否 变化 


11 for(unsigned int i=0;i<out.size();++i){ 
if(block->outVals[i]!=out[i]){ 

13 flag=true; 

14 break; 

16 

17 block->outVals=out,; 

// 设 定 

out 


18 return flag; 
19 } 


第 2~3 行 使 用 基本 块 的 in 集 合 初 始 化 量 时 变量 in 和 out， 作 为 指令 传 


第 4 行 遍历 基本 块 的 指令 。 第 7 行 调用 指令 传递 画 数 更 新 out， 并 将 
in 和 out 保 存 到 指令 对 象 。 第 8 行将 当前 指令 的 out 集 合作 为 下 一 条 指令 的 
in 集 合 继续 计算 。 


第 10~16 行 在 基本 块 数据 流 信 息 传递 结束 后 ， 判 断 基 本 块 的 out 集 合 
是 否 发 生 了 变化 。 


第 17 行 将 新 计算 的 out 集 合 更 新 到 基本 块 的 out 集 合 outVals 中 。 


第 18 行 返回 传递 画 数 执行 后 基本 块 的 出 口 集合 是 否 发 生变 化 。 


根据 以 上 讨论 的 沉 量 传播 的 数据 流 分 析 框 殿 的 实现 ， 实 现 常 量 传 
播 的 数据 流 分 析 如 下 : 


1 void ConstPropagation::analyse 


()t 

2 dfg->blocks[0]->outVals=boundVals,; 

//Entry.out 

3 for(unsigned int i=1;i<dfg->blocks.size();++i) 

4 dfg->blocks[i]->outVals=initVals; 

//B.out 

5 bool outCchange=true; 

6 while(outChange)t{ 

//B .Out 变化 

7 outchange=false,; 

8 for(unsigned int i=1;i<dfg->blocks.size();++i){ 
9 join(dfg->blocks[i]); // 
交汇 运算 

10 if(translate(dfg->blocks[i])) 

/ /传递 画 数 

11 outchange=true; 

12 } 

13 

14 } 


第 2~4 行 分 别 使 用 边界 集合 boundVals 和 初 值 集合 initVals 初 始 化 基本 


块 的 out 集 合 outVals。 


第 6~13 行 执行 迭代 不 动 点 计算 ， 其 中 第 8~12 行 执行 数据 流 方 向 的 
交汇 运算 join 和 传递 本 数 translate。 当 所 有 基本 块 的 传递 画 数 返回 值 都 
是 false 时 ， 即 所 有 基本 块 的 out 信 息 都 不 再 变化 ， 此 时 停止 欠 代 计算 。 


使 用 analyse 进 行 常量 传播 数据 流 分 析 结 束 后 ， 所 有 的 指令 对 象 内 
都 保存 了 执行 指令 前 后 所 有 可 见 变量 的 彰 量 性 质 ， 即 inVals 和 outVals。 
根据 这 两 个 集合 的 信息 ， 可 以 对 中 间 代 码 指令 进行 商 化 。 


如 岁 4-6 所 示 ， 中 间 代 码 经 过 币 量 传播 数据 流 分 析 后 ， 产 生 了 对 应 
的 数据 流 信息 。 岁 中 给 出 了 利 量 传播 优化 后 的 中 间 人 代码， 第 量 传播 的 
代码 优化 规则 如 下 : 


1) 常量 合并 。 对 于 指令 s， 其 四 元 式 为 result=arg1@arg2， 如 果 
s.outVals[result] 是 常量 c， 则 使 用 指令 result=c 巷 换 原 指令 。 图 中 指 


令 “q=1”b=a+2”b=b+1” 按 此 规则 被 蔡 换 为 “a=1” b=3”b=4” © 


2) 代数 化 简 。 对 于 指令 s， 其 四 元 式 为 result=argl@arg2， 如 果 argl 
或 arg2 有 一 个 是 常量 ， 且 满足 运算 符 田 的 代数 化 侧 规 则 ， 则 将 原 指 令 替 
换 为 更 精简 的 指令 。 比 如 表达 式 “a=b+0”， 可 以 直接 被 奉 换 为 “a=b”。 岁 
4-6 中 指令 “b=a*c” 稼 量 传 播 优 化 后 形式 为 “b=1*c”"， 因 此 可 以 化 简 
为 “b=c”。 我们 实现 的 代数 化 简 规 则 如 表 4-1 所 示 。 


a=1 
b=a+2 

if (Ib)gotoL 
b=b+1 

Es 


b=a*ec 


中 间 代 码 流 图 


代数 化 简 


数据 流 信 息 


图 4-6 ”第 量 传播 


表 4-1 代数 化 简 规 则 


优化 后 中 间 代 码 


代数 化 简 


a=0+b a=b 


a=b+0 a=b a=bs%1 
a=0-b a=—b a=0&&b a=0 
a=b-0 a=b a=b&&0 a=0 
a=0*b a=0 a=l]&&b 


3) 不 可 达 代 码 消 除 。 对 于 条 件 跳 转 指 令 s， 其 形式 为 if (cond) 


goto L， 如 果 cond 是 常量 


和 


则 需要 根据 cond 条 件 消 除 不 可 能 执行 的 代码 


分 文 。 如 条 cond 不 等 于 0， 则 将 指令 蔡 换 为 无 条 件 跳 转 指令 jimp 工 ， 并 解 
除 跳 转 指令 所 在 基本 块 与 后 继 基 本 块 的 关联。 如 果 cond 等 于 0， 则 删除 


条 件 号 和 叙 指 令 ， 


并 解除 跳 转 指令 所 在 基本 块 与 目标 基本 块 的 和 关联。 图 4- 


6 中 指令 “if (! b) goto L” 常 量 传播 后 形式 为 “if (! 4) goto L”"， 该 指 
不 可 能 执行 ， 因 此 需要 删除 ， 并 解除 到 跳 转 目标 基本 块 的 关联 。 


按照 上 述 优化 规则 ， 第 量 合并 与 代数 化 催 实 现 如 下 : 


1 void ConstPropagation::algebraSsimplify 


()t 

2 for (unsigned int j=0;j<dfg->blocks.size();++]j){ 

3 list<InterIinst*>::iterator i; 

4 for(i=dfg->blocks[j]->insts.begin(); 

5 i!l=dfg->blocks[j]->insts.end();++i){ 

6 InterInst*inst=*1i; 

7 Operator op=inst->getop(); 

8 if(inst->isExpr())t{ 

9 double rs; 

10 Var*result=inst->getResult(); 

11 Var*argi=inst->getArg1(); 

12 Var*arg2=inst->getArg2(); 

13 rs=inst->outVals[result->index]; 

14 if(rs!=UNDEF&&rs!=NAC){ / /常量 合并 
15 Var*newVar=new Var((int)rs); 

16 tab->addVar (newVar ); 

17 inst->replace(OP_AS,result,newVar ) ， 

18 } 

19 else if(op>=0P_ADD&&0p<=0P_OR&& / /代数 化 简 

20 1 (op==0P_AS| |op==0P_NEG| |op==OP_NOT)){ 

21 double lp,rp; 

22 if(arg1i->isLiteral()) 

23 lp=arg1->getVal(); 

24 else 

25 1p=inst->inVvals[arg1i->index]; 
26 if(arg2->isLiteral()) 

27 rp=arg2->getVal(); 

28 else 

29 rp=inst->inVvals[arg2->index]; 
30 int left,right; 

31 bool dol=false, dor=false,; 

32 if(1p!=UNDEF&&1p!=NAC) 

33 {left=1lp;dol=true;} 

34 else if(rp!=UNDEF&&rp!=NAC) 

35 {right=rp;dor=true,;} 

36 else continue,; 

37 Var* newArg1=NULL 

38 Var* newArg2=NULL; 

39 Operator newOp=0OP_AS ; 

40 if(op==0P_ADD){ 

//Z=0+y Z=X+0 

41 if(dol&&left==0)newArgil=arg2; 
42 if(dor&&right==0)newArg1=arg1， 
43 } 

44 else If(op==OP_SUB){ 


//zZ=0-y Z=X-0 
45 if(do1&&left==0) 


51 


//z=0/y z=x/1 
57 
If(dol&&left==0)newArg1=SymTab : :zero,; 


74 


//Z=X1=0 


// 没 法 化 简 ， 正 常 传播 


{newOp=O0P_NEG; newArg1=arg2;} 
If(dor&&right==0)newArg1=arg1， 


} 
else if(op==OP_MUL){ 
if(dol&&left==0| |dor&&right==0) 
newArg1=SymTab: :zero; 
if(dol&&left==1)newArg1l=arg2; 
If(dor&&right==1)newArg1=arg1， 
} 
else If(op==OP_DIV){ 
if(dor&&right==1)newArg1l=arg1; 
} 
else If(op==OP_MOD){ 
If(dol&&left==0||dor&&right==1) 
newArg1=SymTab: :zero; 
} 
else If(op==OP_AND){ 


if(dol&&left==0||dor&&right==0) 
newArg1=SymTab : :Zero 
if(dol&&left!=0){ 


newOp=OP_NE， 
newArg1=arg2， 
newArg2=SymTab : :zero 


} 
if(dor&&right!=0){ 


newOp=OP_NE; 
newArg1=arg1， 
newArg2=SymTab : :zero 


} 
i if(op==OP_OR){ 


if(dol&&left!=0||dor&é&right!=0) 
newArg1=SymTab: :one; 
if(do1&&left==0){ 


newOp=OP_NE， 
newArg1=arg2， 
newArg2=SymTab : :zero 


} 
if(dor&&right==0){ 


newOp=OP_NE 
newArg1=arg1， 
newArg2=SymTab : :zero 


} 
De 


inst->replace(newOp,result, 
newArg1, newArg2); 
elsef 


98 if(dol){ 


99 newArg1=new Var(left); 
100 tab->addVar (newArg1); 
101 newArg2=arg2; 

102 } 

103 else if(dor){ 

104 newArg2=new Var(right); 
105 tab->addVar (newArg2); 
106 newArg1=arg1; 

107 

108 inst->replace(op,result, 

109 newArg1, newArg2); 

110 } 

111 } 

112 } 

113 else if(op==0P_ARG||op==OP_RETV){ 

114 Var*argi=inst->getArg1(); 

115 if(!arg1i->isLiteral())t{ 

116 double rs=inst->outVals[arg1->index]; 
117 if(rs!=UNDEF&&rs!=NAC){ 

118 Var*newVar=new Var((int)rs); 

119 tab->addVar (newVar ); 

120 inst->setArg1(newVar ); 

121 } 

122 } 

123 } 

124 } 

125 

126 } 


第 2~7 行 取出 流 图 基本 块 的 每 一 条 指令 进行 处 理 。 第 8~112 行 处 理 
表达 式 的 弟 量 传播 。 第 113~123 行 处 理 参数 指令 和 返回 指令 的 第 量 传 
播 。 


第 9~12 行 取出 四 元 式 的 基本 元 素 。 第 13~18 行 处 理 常 量 合 并 ， 将 
result 的 利 量 值 取出 存 入 rs 变量 ， 并 将 原 指 令 雁 换 为 指令 result=rs。 


第 19~111 行 处 理 代 数 化 简 。 第 21~29 行 将 arg1 和 arg2 的 常量 值 取出 
到 lp 和 和 rp。 第 30~36 行 判定 哪个 操作 数 是 常量 ， 将 信息 记录 到 dol 和 dor 
中 ， 将 操作 数 的 常量 值 保存 到 left 和 right 中 。 


第 37~39 行 使 用 newArg1 和 newArg2 记 录 新 的 操作 数 ， 使 用 newOp 记 
录 新 的 操作 符 ， 其 初 值 为 赋值 运算 符 OP_AS。 


第 40~43 行 处 理 加 法 操作 的 代数 化 简 ， 符 有 操作 数 为 0， 便 将 邦 一 
个 操作 数 作为 newArg1。 其 他 算 木 运算 的 代数 化 简 基 本 类 似 ， 在 此 不 再 
资 述 。 需 要 注意 的 是 减法 操作 代数 化 簿 时 ， 可 能 更 改 newOp 为 OP_NEG 
取 负 指令 。 


第 64~78 行 处 理 逻 辑 与 操作 数 的 代数 化 位 。 夺 有 操作 数 为 0， 便 将 
newArg1 记 有 录 为 SymTab: : zero， 表 示 表 达 式 结果 为 0。 丰 有 操作 数 为 
1， 则 需要 将 另 一 个 操作 数 转化 为 布尔 值 ， 即 将 newOp 更 改 为 OP_NE， 
男 一 个 操作 数 保存 到 newArgl1，newArg2 记 录 为 SymTab: : zero。 例 如 
表达 式 “a=1llb”， 经 过 代数 化 简 后 转化 为 “a= (b! =0) ”， 而 不 
和 是“a=b”。 逻 辑 或 运算 的 代数 化 简 与 此 类 似 。 


常量 传播 的 不 可 达 代码 消除 算法 如 下 : 


1 void ConstPropagation::condJmpOpt 


()t 

2 for (unsigned int j = 0; j < dfg->blocks.size(); ++j){ 

3 list<InterIinst*>::iterator i,k; 

4 for(i=dfg->blocks[j]->insts.begin(),k=i; 

5 i!l=dfg->blocks[j]->insts.end();i=k){ 

6 ++k; 

7 InterInst*inst=*i,; 

8 if(inst->isJcond())t{ 

9 Operator op=inst->getop(); 

10 InterIinst*tar=inst->getTarget(); 

11 Var*argi=inst->getArg1(); 

12 double cond; 

13 if(arg1->isLiteral())cond=arg1->getVal(); 
14 else cond=inst->invals[arg1i->index]; 
15 if(cond==NAC| |cond==UNDEF )continue,; 


16 if(op==O0P_JT&&cond==0| |op==0P_JF&&cond!=0){ 
inst->block->insts.remove(inst); 


18 if(dfg->blocks[j+1]!=tar->block) 

19 dfg->delLink(inst->block, tar->block); 
20 } 

21 else if(op==0P_JT&&cond!=0||op==O0P_JF&&cond==0)f{ 
22 inst->replace(OP_JMP, tar); 

23 if(dfg->blocks[j+1]!=tar->block) 

24 dfg->delLink(inst->block,dfg->blocks[j+1]); 
25 } 

26 } 

27 } 

28 } 

29 } 


第 2~6 行 所 历 流 图 基本 块 的 所 有 指令 ， 达 代 器 k 始 终 指向 迷 代 器 的 
下 一 个 位 置 ， 以 防止 志 历 过 程 删除 i 指 加 的 指令 后 无 法 继续 适 代 的 情 
Ws 


第 9~11 行 取出 四 元 式 的 基本 元 了 系 。 第 12~15 行 取出 条 件 变量 的 常量 
值 ， 保 存 到 cond 。 


第 16~20 行 处 理 跳 转 条 件 不 满足 的 情况 。 首 先 删 除 跳 转 指令 ， 然 后 
调用 delLink 解 除 当 前 指令 所 在 基本 块 与 跳 较 目标 基本 块 的 关联 。 


第 21~25 行 处 理 跳 转 条 件 总 是 满足 的 情况 。 首 先 将 路 转 指令 蔡 换 万 
无 条 件 跳 转 指 令 OP_JMP， 人 然后 调用 delLink 解 除 当 前 指令 所 在 基本 块 与 
后 继 基 本 块 的 关联 。 


函数 delLink 用 于 解除 两 个 基本 块 之 间 的 关联 ， 需 要 对 流 图 进行 操 
作 。 


1 void DFG::delLink 


ee begin, Block*end){ 

if(begin)t 
3 begin->succs.remove(end); 
4 end->prevs.remove(begin); 


5 } 

6 release(end); // 涪 
归 解 除 关联 

7 } 

8 void DFG::release 

(Block*block){ 

9 if(!reachable(block)){ // 块 不 可 达 
10 list<Block*> delList; 

11 list<Block*>::iterator i; 

12 for(i=block->succs.begin();i!=block->succs.end();++i){ 

13 delList.push_back(*i); // 记 录 所 有 
后 继 

14 } 

15 for(i=delList.begin();i!=delList.end();++i){ 

16 block->succs.remove(*i); 

17 (*i)->prevs.remove(block); 

18 } 

19 for(i=delList.begin();i!=delList.end();++i){ 

20 release(*i); // 递 
归 处 理 后 继 

21 } 

22 } 

23 } 

24 bool DFG::reachable 

(Block*block){ 

25 resetVisit(); 

26 return __reachable(block); 

27 } 

28 bool DFG::_ reachable 

(Block*block){ 

29 if(block==blocks[0])return true; // 到 达 入 口 

30 else if(block->visited)return false / /访问 过 了 

31 block->visited=true; // 设 定 访问 标记 
32 bool flag=false; 

33 list<Block*>::iterator i; 

34 for(i=block->prevs.begin();i!=block->prevs.end();++i)f{ 

35 Block*prev=*i,; // 
每 个 前 驱 

36 flag=__reachable(prev); / /递归 测试 
37 If(flag)break 

38 } 

39 return flag; 


第 1~7 行 的 delLink 画 数 删 除 基 本 块 begin 天 end 的 关联 ， 即 将 end 从 
begin 的 后 继 中 删除 ， 将 begin 从 end 的 前 驱 中 删除 。 基 本 块 关 联 解除 
后 ， 还 需要 测试 end 是 否 可 达 。 如 果 end 不 可 达 ， 那 么 从 end 出 发 的 关联 
也 是 无 效 的 ， 也 需要 删除 ， 这 是 一 个 递归 的 过 程 。 


第 8~23 行 的 release 函 数 用 于 处 理 基 本 块 不 可 达 时 删除 无 效 的 基本 块 
关联 。 第 9 行 调 用 reachable 测 试 基 本 块 block 是 否 从 Entry 开 始 可 达 。 如 采 
基本 块 不 可 达 ， 第 11~14 行 将 block 的 后 继 添加 到 列表 delList。 第 15~18 
行 遍历 delList 按 照 第 1~7 行 相似 的 方式 解除 block 与 后 继 基 本 块 的 管理 。 
第 19~21 行 再 次 所 历 delList， 递 归 调 用 release 处 理 block 的 后 继 基本 块 。 


第 28~40 行 的 __reachable 了 芳 数 用 于 测试 基本 块 block 是 否 从 Entry 块 开 
台 可 达 。 第 29 行 表示 block 就 是 Entry 块 ， 返 回 true。 第 30 行 表示 block 已 
经 被 访问 过 了 ， 返 回 false。 第 34~38 行 处 理 block 的 前 驱 ， 向 前 进行 深度 
搜索 。 第 36 行 递归 调用 _reachable 处 理 各 个 前 驰 ， 只 要 有 一 个 前 豫 可 
达 ， 则 block 可 达 。 


第 24~27 行 的 reachable 范 数 对 reachable 进 行 封 装 ， 即 在 调用 
reachable 函 数 之 前 ， 调 用 resetVisit 函 数 将 所 有 基本 块 的 visit 访 问 标 记 
置 为 false， 以 防止 多 次 调用 _reachable 函 数 导 致 访问 标记 被 污染 


4.2.2 ”复写 传播 


如 果 说 常量 传播 是 将 常量 传递 到 表达 式 的 操作 数 中 ， 那 么 复写 传 
播 则 是 将 变量 传递 到 表达 式 的 操作 数 中 。 复 写 传播 分 析 变 量 值 的 复制 
轨迹 ， 以 发 现 等 值 变量 集合 ， 并 在 表达 式 中 尽 可 能 使 用 同一 个 变量 代 
蔡 原 本 表达 式 的 操作 数 。 例 如 中 间 代 码 


b=ac=bd=c+1 


其 中 “b=a”*c=b” 称 为 复写 表达 式 ， 经 过 复写 传播 后 ， 上 壕 代 码 被 转化 


b=ac=ad=a+1 


我 们 发 现 原 中 间 代 码 为 了 计算 变量 d 的 值 ， 不 得 不 依次 计算 变量 b 
和 c 的 值 。 但 是 ， 经 过 复写 传播 的 处 理 ， 使 得 对 变量 b 和 c 的 计算 变 得 元 
余 ， 使 之 成 为 无 效 代码 〈 死 代码 ) 。 和 死 代码 消除 会 将 该 类 代码 从 中 间 
代码 中 删除 ， 因 此 复写 传播 从 一 定 程度 上 来 说 是 为 死 代码 消除 服务 
的 。 


对 于 复写 传播 ， 其 数据 流 分 析 框 以 定义 如 下 。 


1) 数据 流 方 向 D: 复写 传播 需要 沿 着 代码 执行 的 方向 分 析 复 写 表 
达 式 ， 因 此 是 前 回 数 据 流 。 


2) 值 集 V: 复写 传播 分 析 的 是 代码 中 的 复写 表达 式 ， 因 此 复写 传 
播 的 数据 流 值 是 复写 表达 式 集 合 。 由 于 征 前 癌 数 据 流 ， 因 此 边界 集合 
vEntry 的 值 为 空 集 。 而 初 值 集 合 T 为 所 有 复写 表达 式 的 全 集 。 边 界 集 合 
与 初 值 集合 都 是 值 集 V 的 元 隶 ， 因 此 值 集 V 为 复写 表达 式 的 需 集 。 


3) 交汇 运算 A: 当 基 本 块 具有 多 个 前 驱 时 ， 基 本 块 入 口 处 的 复写 
表达 式 集合 为 前 驱 集 合 出 口 处 复写 表达 式 集合 的 交集 ， 因 此 交汇 运算 
集 


4) 传递 函数 ， 与 常量 传播 的 传递 本 数 类 似 ， 这 里 仍 将 指令 看 作 独 
立 的 基本 块 。 复 写 表达 式 的 一 般 形式 为 “x=y”， 与 赋值 表达 式 的 形式 完 
全 相同 。 如 果 表 达 式 运算 修改 了 x 或 y， 称 为 指令 杀 死 了 复写 表达 
式 “x=y”。 对 于 赋值 表达 式 “x=y”， 称 为 指令 产生 了 复写 表达 式 “x=y”， 
同时 该 指令 杀 死 了 包含 x 的 复写 表达 式 。 指 令 产 生 的 复写 表达 式 集合 记 
为 s.gen， 指 令 杀 和 死 的 复写 表达 式 集 合 记 为 skil， 因 此 指令 的 传递 函数 
fs 定义 为 : s.out= (s.in-s.kil) Us.gen 〈 其 中 为 集合 差 集运 算 ，U 为 集 


合并 集运 算 ) 。 


复写 传播 初始 化 阶段 ， 需 要 统计 所 有 的 复写 表达 式 ， 并 计算 指令 
的 gen 和 kill 集 合 。 


1 CopyPropagation: :CopyPropagation 


( 
2 
3 
4 
5 
6 
7 
8 


DFG*g):dfg(9g)t 


dfg->toCcode(optCode); 

int j=0; 

for(list<InterIinst*>;:iterator i=optCode.begin(); 
i!l=optCode.end();++i){ 
InterInst*inst=*i,; 
Operator op=inst->getop(); 
if(op==0P_AS)copyExpr.push_back(inst); 


U.init(copyExpr.size(),1); 
E.init(copyExpr.size( ),0); 
G.init(copyExpr.size(),0); 
vector<Var*>glbVars=tab->getGlbVars(); 
for(unsigned int i=0;i<glbVars.size();++i)f{ 
for(unsigned int j=0;j<copyExpr.size();j++) 
if(glbVars[i]==copyExpr[j]->getResult() 
|19glbVars[i]==copyExpr[j]->getArg1()) 
G.set(i); 


for(list<InterIinst*>:;:iterator i=optCode.begin(); 
i!l=optCode.end();++i){ 
InterInst*inst=*i,; 
inst->copyInfo.gen=E; 
inst->copyInfo.Kkill=E; 
Var*rs=inst->getResult(); 
Operator op=inst->getop(); 
if(op==O0P_SET| |op==O0P_ARG&&!inst->getArg1()->isBase()) 
inst->copyInfo,.Kkill=U; 
else if(op==OP_PROC| |op==OP_CALL ) 
inst->copyInfo,.Kkill=6G; 
if(op>=0P_AS&&0op<=0P_OR| |op==0P_GET||op==OP_CALL){ 
for(unsigned int i=0;i<copyExpr.size();i++){ 
if(rs==copyExpr[i]->getResult() 
|1rs==copyExpr[i]->getArg1()) 
inst->copyInfo,.Kkill.set(i); 
if(copyExpr[i]==inst) 
inst->copyInfo.gen.set(i); 


第 2~9 行 从 流 图 中 提取 所 有 的 中 间 代 码 到 optCode， 并 遇 历 中 间 代 
码 ， 记 录 所 有 赋值 运算 表达 式 ， 即 复写 表达 式 到 copyExpr。 


第 10~19 行 初始 化 变量 U、E 和 G， 它 们 分 别 表 示 复 写 表达 式 的 全 


集 、 空 集 和 包含 全 局 


量 的 复写 表达 式 集合 。 这 些 集合 的 大 小 与 
全 于 


ey 
义 
copyExpr 大 小 相等 ， 集 合 元 素 取 值 为 0 或 1， en 


的 复写 表达 式 是 否 存 在 。 其 中 第 18 行 的 set 函 数 是 将 索引 ij 的 集合 元 素 置 
为 1。 

第 20~40 行 计算 指令 的 gen 和 kil 集 合 ， 其 中 第 23~24 行 将 gen 和 Kill 
初始 化 为 空 集 E 。 

第 27~28 行 处 理 指针 运算 的 赋值 指令 和 指针 参数 指令 ， 它 们 可 能 


杀 死 所 有 的 复写 表达 式 ， 因 此 将 kil 置 为 全 集 U 。 


第 29~30 行 处 理 函 数 调 用 指令 ， 它 们 可 能 杀 死 所 有 包含 全 局 变量 
的 复写 表达 式 ， 因 此 将 kill 置 为 G。 而 对 有 返回 值 的 函数 ， 调 用 指令 
OP_CALL 的 返回 值 放 在 后 面 处 理 。 


第 31~39 处 理 所 有 修改 结果 变量 rs 的 指令 ， 并 与 复写 表达 式 集合 


copyExpr 进 行 比 对 。 


第 33~35 行 表示 指令 运算 结果 rs 是 复写 表达 式 copyExpr[ 中 的 一 部 
分 ， 即 指令 杀 死 了 复写 表达 式 copyExpr[i]， 因 此 将 指令 的 k 记 集合 索引 i 
的 元 素 置 为 1 。 


第 36~37 行 表示 该 指令 为 赋值 表达 式 ， 产 生 了 复写 表达 式 
copyExpr[i] ， 因 此 将 指令 的 gen 集 合 索 引 i 的 元 素 置 为 1°。 赋值 表达 式 杀 
死 的 复写 表达 式 已 经 在 第 33~35 行 处 理 。 


产生 集合 gen 和 杀 死 集合 kill 初 始 化 完毕 后 ， 便 可 以 实现 传递 函数 
的 功能 。 


1 bool CopyPropagation::translate 


(Block*block){ 

2 Set tmp=block->copyInfo.in; 

3 for(list<InterInst*>::iterator i=block->insts.begin(); 
4 i!=block->insts.end();++i){ 

5 InterInst*inst=*i,; 

6 Set& in=inst->copyInfo.in; 

7 Set& out=inst->copyInfo,out ， 

8 


in=tmp; 
9 out=(in-inst->copyInfo.kill) 
10 |inst->copyInfo.gen,; 
11 tmp=out ， 
12 } 
13 bool flag=tmp!=block->copyInfo.out,; 
14 block->copyInfo.out=tmp; 
15 return flag; 
16 } 


第 2 行将 tmp 集 合 初始 化 为 基本 块 的 入 口 集合 B.in。 第 3~12 行 按 序 
处 理 基 本 块 内 的 指令 。 
第 8 行将 tmp 记 杂 到 指令 的 入 口 集合 s.in。 第 9 行 根据 指令 的 传递 函 


数 计算 指令 的 出 口 集合 s.out。 指 令 传递 函数 使 用 了 运算 符 中 和 “一 ' 用 于 
表示 集合 的 并 集 和 差 集运 算 ， 这 些 运算 符 已 经 被 Set 类 重 载 。 


第 11 行 将 指令 出 口 集 合 s.out 更 新 到 tmp， 作 为 下 条 指令 的 入 口 集 


合 。 


第 13 行 判断 基本 块 的 出 口 集 合 B.out 是 否 发 生 更 新 。 第 14 行 更 新 基 
本 块 的 出 口 集合 。 


根据 复写 传播 的 传递 函数 实现 复写 传播 的 数据 流 分 析 如 下 。 


1 void CopyPropagation: :analyse 


Ot 
dfg->blocks[0]->copyInfo .out=E,; 
/sentry. out=E 
for(unsigned int i=1;i<dfg->blocks.size();++i){ 


; dfg- >blocks[i]- >copyInfo.out=U; //B.out=U 
5 } 

6 bool change=true; 

7 while(change)t{ 

/VB. Out 集合 发 生变 化 

8 change=false， 

9 for(unsigned int i=1;i<dfg->blocks.size();++i){ 

10 if(!dfg->blocks[i]->canReach)continue; 

11 Set tmp=U; 

12 list<Block*>::iterator j; 

13 for(j=dfg- >blocks[i]. >prevs.begin(); 

14 j!=dfg->blocks[i]->prevs.end();++]j)t{ 
15 tmp=tmp & (*j)->copyInfo.out; 

16 } 

17 dfg->blocks[i]->copyInfo.in=tmp; 

18 if(translate(dfg->blocks[i])) 

19 change=true; 

20 } 

21 

22 } 


第 2~5 行 初始 化 常量 传播 基本 块 的 出 口 集合 ， 其 中 Entry 块 出 口 集 
合 初 始 化 为 空 集 E， 其 他 基本 块 出 口 集合 初始 化 为 全 集 U。 


第 7~20 行 进行 迭代 不 动 点 计算 。 其 中 第 10 行 跳 过 不 可 达 的 基本 
块 ， 第 15 行 使 用 集合 交集 运算 ‘8 合并 前 驱 基 本 块 的 出 口 集合 到 B.in， 
第 18 行 调用 传递 函数 计算 B.out 。 


复写 传播 数据 流 分 析 结 束 后 ， 每 条 指令 的 入 口 集合 内 保存 了 有 效 
的 复写 表达 式 集 


copyInfo.in 


b=a c=b 
b=a 0 0 b=a 
c=b 1 0 b<-a c=a 
d=c+1 1 1 c-b<-a d=a+l 


a ) 中 间 代 码 b ) 数据 流 信息 c ) 优化 后 中 间 代 人 码 
图 4-7 复写 传播 


本 市 开始 的 例子 经 过 复写 传播 数据 流 分 析 后 的 数据 流 信息 如 图 4-7 
所 示 。 在 处 理 指令 “c=b” 时 ， 入 口 复 写 表达 式 集合 为 {b=a}， 复 写 传播 
链 为 “ba” 因 此 使 用 变量 a 珍 换 变量 b， 得 到 指令 “c=a”。 在 处 理 指 
令 “d=c+1” 时 ， 入 口 复写 表达 式 集合 为 {b=a，c=b}， 复 写 传播 链 
为 “cb~a”， 因 此 使 用 变量 a 蕉 换 变量 c 的 使 用 ， 得 到 指令 “d=a+1”。 


根据 复写 链 查 找 变 量 的 实现 为 : 


1 Var* CopyPropagation: :find 


(Set& in,Var*var)t{ 

2 if(!var)return NULL 

3 for(unsigned int i=0;i<copyExpr.size();i++){ 
4 if(in.get(i))t{ 

5 Var*rs=copyExpr[i]->getResult(); 

6 Var*arg1i=copyExpr[i]->getArg1(); 

7 if(var!=rs)continue; 

8 if(var!=rs||rs==arg1)break; 

9 return find 


(in,arg1); 

10 } 

11 } 

12 return var; 
13 } 


参数 im 表示 指令 入 口 复写 表达 式 集合 ，var 为 待 查找 的 变量 。 


第 3~4 行 抽 历 入 口 集合 的 复写 表达 式 ，Set 的 get 函 数 测 试 索 引 为 的 


第 5~6 行 取出 复写 表达 式 的 结果 rs 和 参数 argl1。 


第 7 行 判 断 如 果 待 查找 的 变量 不 是 复写 表达 式 的 结果 变量 ， 则 继续 
向 后 查找 。 


第 8 行 判 断 如 有 果 复 写 表达 式 的 形式 为 “x=x”， 则 集 止 查找 过 程 ， 避 
免 无 限 查 找 。 


第 9 行将 arg1 作 为 得 查找 变量 继续 递归 查找 。 


使 用 find 函 数 忌 能 找到 边 var 复 写 传播 的 “ 源 尖 ”"， 即 复写 值 的 来 
源 。 


使 用 复写 传播 数据 流 信息 对 代码 优化 的 实现 为 : 


1 void CopyPropagation: :propagate 


(){ 

2 analyse() 

3 for(list<InterIinst*>:;:iterator i=optCode.begin(); 

4 i!l=optCode.end();++i){ 

5 InterInst*inst=*i,; 

6 Var* rs=inst->getResult(); 

7 Operator op=inst->getop(); 

8 Var*arg1l=inst->getArg1(); 

9 Var*arg2=inst->getArg2(); 

10 InterIinst*tar=inst->getTarget(); 

11 if(op==OP_SET){ 

12 Var*newRs=find(inst->copyInfo.in,rs); 

13 inst->replace(op,newRs,arg1); 

14 } 

15 else if(op>=0P_AS&&op<=0P_GET&&0p!=0P_LEA)T{ 

16 Var*newArg1=find(inst->copyInfo.in,arg1); 
17 Var*newArg2=find(inst->copyInfo.in,arg2); 


18 inst->replace(op,rs,newArg1,newArg2); 


} 
20 else if(op==0P_JT||op==0P_JF||op==OP_ARG| |op==OP_RETV){ 


21 Var*newArg1=find(inst->copyInfo.in,arg1); 
22 inst->setArg1i(newArg1); 

23 } 

24 } 

25 } 


第 2 行 调 用 analyse 函 数 进 行 复写 传播 数据 流 分 析 。 
第 3~4 行 处 理 每 一 条 中 间 代 码 指令 。 


第 11~14 行 处 理 指针 运算 赋值 指令 “*arg1=result”*"， 调 用 find 查 找 
result 的 复写 值 来 源 newRs， 然 后 更 新 指令 。 


第 15~19 行 处 理 一 般 的 运算 指令 ， 其 中 排除 了 取 址 运算 指令 
OP_ LEA， 这 是 因为 取 址 运算 是 针对 变量 的 ， 而 非 变 量 的 值 。 


第 16~17 行 取出 操作 数 的 复写 值 来 产 ， 然 后 更 新 指令 。 


第 20~22 行 处 理 其 他 运算 指令 ， 同 样 将 arg1 的 复写 值 来 源 更 新 到 指 


令 。 


4.2.3 ”和 死 代码 消除 


前 面 讨论 过 ， 复 写 传播 从 一 定 意义 上 说 是 为 死 代码 消除 算法 服务 
的 。 所 谓 死 代码 ， 就 是 对 程序 计算 结果 没有 任何 影响 的 代码 。 死 代码 
消除 束 是 发 现 这 样 的 死 代码 ， 并 将 之 从 代码 中 删除 。 死 代码 消除 是 基 
于 变量 的 活路 性 数据 流 分 析 过 程 的 ， 变 量 活 路 性 分 析 是 为 了 发 现 某 条 
和 令 执 行 后， 哪些 变 量 还 会 被 使 用 。 如 采 对 变量 值 的 修改 ( 称 为 定 
值 ) 指令 执行 后 ， 该 变量 不 会 在 以 后 再 被 使 用 ， 那 么 便 认 为 这 条 指令 
是 无 效 的 ， 即 死 代 码 。 如 图 4-7 所 示 复 写 传播 优化 后 的 中 间 人 代码， 在 指 
令 “b=a” 执 行 后 ， 变 量 不 会 再 被 使 用 ， 因 此 该 指令 为 死 代码 ， 同 样 的 指 
令 “c=b" 也 十 死 代 码 。 而 在 复写 传播 优化 之 前 ， 所 有 的 变量 都 会 被 直接 
或 间接 地 使 用 ， 因 此 不 存在 死 代码 ， 这 说 明了 复写 传播 优化 对 于 死 代 
码 消除 的 必要 性 。 


活路 变量 数据 流 分析 框 染 的 定义 如 下 。 


1) 数据 流 方向 D: 活跃 变量 分 析 计 算 将 来 要 被 使 用 的 变量 集合 ， 
与 代码 执行 顺序 相反 ， 因 此 是 逆 癌 数据 流 。 


2) 值 集 V: 活跃 变量 分 析 的 是 所 有 的 可 见 变 量 ， 包 括 全 局 变量 、 
参数 变量 和 局 部 变量 ， 这 与 常量 传播 分 析 的 对 象 相同 。 由 于 是 逆 疝 数 
据 流 ， 边 界 集 合 vExit 的 值 为 空 集 ， 因 为 Exit 块 不 会 使 用 任何 变量 。 初 


征 空 集 ， 因 为 交汇 运算 是 集合 并 集运 算 。 边 界 集合 和 初 值 
都 是 值 集 V 的 元 素 ， 因 此 值 集 V 为 可 见 变量 的 需 集 。 


3) 交汇 运算 A: 当 基 本 块 具有 多 个 后 继 时 ， 基 本 块 出 口 处 的 活跃 
变量 集合 为 后 继 集合 入 口 处 活跃 变量 集合 的 并 集 ， 因 此 交汇 运算 为 集 


4) 传递 男 数 ， 与 前 面 描述 的 数据 流 问 题 的 传递 函数 类 似 ， 这 里 仍 
将 指令 看 作 独 立 的 基本 块 。 在 复写 传播 数据 流 中 ， 定 义 了 指令 的 产生 
复写 表达 式 集 合 s.gen 和 杀 死 复写 表达 式 集合 s.kill。 类 似 地 ， 活 路 变量 
分 析 数 据 流 也 为 指令 定义 了 两 个 集合 : 指令 定 值 变量 集合 s.def 和 指令 
使 用 变量 集合 s.use。 对 于 通用 的 指令 形式 x=f (y) ， 其 中 x 为 指令 计算 
结果 ，f 为 指令 计算 操作 ，y 为 指令 参数 ， 我 们 称 为 该 指令 是 对 y 的 使 
用 ， 对 x 的 定 值 。 那 么 x 属于 指令 的 定 值 变 量 集 合 s.def，y 属 于 指令 的 使 
用 变量 集合 s.use 。 0 个 变量 ， 即 x=f (x) ， 这 里 规定 x 属 
于 指令 的 使 用 集合 s.use。 指 令 的 传递 贸 数 fs 定义 为 : s.in= (s.out- 


s.def) Us.use° 


活跃 变量 分 析 初 始 化 阶段 ， 需 要 统计 所 有 的 可 见 变 量 ， 并 计算 指 
令 的 def 和 use 集 合 


1 LiveVar::LiveVar 


(DFG*g,SymTab*t,vector<Var*>&paraVar) 
:dfg(g),tab(t)t{ 

varList=tab->getGlbVars(); 

int glbNum=varList.size(); 


OD 


for(unsigned int i=0;i<paraVar.size();++i) 
varList.push_back(paraVvar[i]); 
dfg->toCcode(optCode); 
for(list<InterIinst*>:;:iterator i=optCode.begin(); 
i!l=optCode.end();++i){ 
InterInst*inst=*i,; 
Operator op=inst->getOop(); 
if(op==O0P_DEC)varList.push_back(inst->getArg1()); 


U.init(varList.size(),1); 
E.init(varList.size(),0); 
G=E; 
for(int i=0;i<glbNum;i++)G.set(i); 
for(unsigned int i=0;i<varList.size();i++) 
varList[i]->index=i; 
for(list<InterIinst*>:;:iterator i=optCode.begin(); 
i!l=optCode.end();++i){ 
InterInst*inst=*i,; 
inst->liveInfo.use=E,; 


24 inst->liveInfo.def=E,; 

25 Var*rs=inst->getResult(); 

26 Operator op=inst->getop(); 

27 Var*arg1=inst->getArg1() ， 

28 Var*arg2=inst->getArg2(); 

29 if(op>=0P_AS&&80p<=OP_LEA)TE 

30 inst->liveInfo.use,.set(argi1->index); 

31 if(arg2) 

32 inst->liveInfo.use.set(arg2->index); 
33 if(rs!=argi && rs!=arg2) 

34 inst->liveInfo.def.set(rs->index); 
35 } 

36 else if(op==OP_SET ) 

37 inst->liveInfo.use,.set(rs->index); 

38 else if(op==OP_GET ) 

39 Inst->]11iveInfo,use=U 

40 else if(op==OP_RETV) 

41 inst->liveInfo.use,.set(arg1i->index); 

42 else if(op==OP_ARG){ 

43 if(arg1->isBase()) 

44 inst->liveInfo.use.set(arg1->index); 
45 else 

46 inst->liveInfo.use=U; 

47 } 

48 else if(op==0P_CALL||op==OP_PROC ){ 

49 inst->liveInfo,.use=G; 

50 if(rs&&rs->getPpath().size( )>1) 

51 inst->liveInfo.def.set(rs->index); 
52 } 

53 else if(op==OP_JF||op==OP_JT) 

54 inst->liveInfo.use,.set(arg1i->index); 

55 

56 } 


第 3~13 行 将 全 局 变 


varList。 第 14~19 行 初始 化 了 数据 流 值 的 全 集 、 衬 集 、 全 局 


变量 在 变量 集合 varList 的 索引 。 


数 变 量 和 局 部 变量 保存 到 变量 集合 


第 20~55 行 计算 指令 的 def 科 use 集合。 第 29~35 行 处 理 一 般 的 运 入 
和 令 ， 即 将 arg1 和 arg2 添 加 到 指令 的 use 和 集合 ， 如 果 rs 不 等 于 arg1 和 
arg2， 则 将 rs 添加 到 指令 的 def 集 合 。 


第 36~37 行 处 理 指针 运算 赋值 指令 “*arg1=result”， 我 们 可 以 确定 
result 一 定 会 被 使 用 。argl 指 向 的 变量 无 法 确定 ， 但 不 能 认为 产生 了 对 
任意 变量 的 定 值 ， 否 则 会 消除 除了 result 的 所 有 变量 的 活路 信息， 导致 
正常 的 代码 被 处 理 为 死 代码 。 因 此 ， 在 无 法 确定 指令 的 定 值 变量 集合 
时 ， 保 守 地 认为 没有 变量 被 定 值 。 


第 38~39 行 处 理 指令 运算 取 值 指令 “result=*arg1”， 这 里 无 法 确定 
result 是 否 被 定 值 ， 因 为 arg1 有 可 能 指 癌 result。arg1 指 癌 的 变量 无 法 确 
定 ， 在 不 能 确定 指令 的 使 用 变量 集合 时 ， 保 守 地 认为 所 有 的 变量 被 使 
用 o 


第 40~41 行 处 理 函 数 返 回 指令 ， 将 arg1l 添 加 到 指令 的 使 用 变量 集 


第 42~47 行 处 理 参数 指令 ， 如 采 参 数 是 基本 类 型 ， 将 之 添加 到 使 
用 变量 集合 ， 如 有 果 参 数 是 非 基 本 类 型 ， 则 认为 所 有 的 变量 会 被 使 用 。 


第 48~52 行 处 理 琅 数 调 用 指令 ， 保 守 认 为 函数 调用 会 使 用 所 有 的 
全 局 变量 。 如 采 函 数 有 返回 值 ， 且 返回 值 不 是 全 局 变量 ， 则 将 返回 值 


添加 到 定 值 变 量 集合 。 


第 53~54 行 处 理 跳 转 指 令 ， 将 arg1l 添 加 a 到 使 用 变量 集合 。 
根据 指令 的 def 和 和 use 集合， 实现 基本 块 的 传递 函数 如 下 。 


1 bool LiveVar::translate 


(Block*block){ 

2 Set tmp=block->liveInfo.out,; 

3 for(list<InterInst*>::reverse iterator 

4 i=block->insts.rbegin(); 

5 i!=block->insts.rend();++i){ 

6 InterInst*inst=*i,; 

7 if(inst->isDead)continue; 

8 Set& in=inst->liveInfo.in; 
Set& out=inst->liveInfo.out,; 
out=tmp; 
in=inst->liveInfo.use | (out-inst->liveInfo.def); 
tmp=in; 


} 

bool flag=tmp!=block->liveInfo.in; 
block->liveIinfo.in=tmp; 

return flag; 


活跃 变量 分 析 的 传递 国 数 和 复写 传播 的 传递 函数 基本 类 似 ， 只 不 
过 对 基本 块 内 的 指令 是 使 用 reverse_iterator 逆 序 遍 历 的 ， 这 是 因为 活路 
变量 数据 流 是 逆 回 的 。 


另外 ， 第 7 行 跳 过 了 和 死 代码 指令 ， 后 面 的 死 代 码 消 除 算 法 会 对 此 作 


根据 活跃 变量 分 析 的 传递 画 数 实现 活跃 变量 数据 流 分 析 如 下 。 


1 void LiveVar::analyse 


(){ 

2 
//Exit.in 
3 


dfg->blocks[dfg->blocks.size()-1]->liveIinfo.in=E; 


for(unsigned int i=0;i<dfg->blocks.size()-1;++i){ 
4 dfg->blocks[i]->liveInfo.in=E; 
//B.in=E 

5 


6 bool change=true; 
7 while(change){ 
8 change=false， 
9 for(int i=dfg->blocks.size()-2;i>=0;--1i){ // 
逆序 
10 if(!dfg->blocks[i]- 
canReach )continue,; 
Set tmp=E; 
12 list<Block*>::iterator j; 
13 for(j=dfg->blocks[i]->succs.begin(); 
14 j!=dfg->blocks[i]->succs.end();++]j){ 
15 tmp=tmp | (*j)->liveInfo.in,; 
16 } 
17 dfg->blocks[i]->liveInfo.out=tmp; 
18 if(translate(dfg->blocks[i])) 
19 change=true; 
20 } 
21 
22 } 


第 2~5 行 将 Exit 块 的 入 口 集合 初始 化 为 空 集 ， 将 其 他 基本 块 的 入 口 
集合 也 初始 化 为 空 集 。 

第 7~21 行 进行 迭代 不 动 点 计算 ， 第 9 行人 逆序 处 理 基本 块 ， 第 10 行 
跳 过 不 可 达 基 本 块 。 

第 15 行 使 用 集合 并 运算 “| ”以 将 前 驱 基 本 块 的 出 口 集 合 合并 到 
B.out， 第 17 行 调用 传递 函数 来 计算 B.in 。 


活跃 变量 分 析 结 束 后 ， 指 令 的 出 口 集合 保存 了 所 有 将 要 使 用 的 变 
量 集合 。 如 采 对 变量 的 定 值 指令 的 出 口 集合 中 不 包含 该 变量 ， 则 将 该 
人 

A 


指令 标记 为 死 代码 。 


1 void LiveVar::elimateDeadCode 


(int stop=false)t{ 

2 if(stop)t{ 

3 for(list<InterIinst*>::iterator i=optCode.begin(); 
4 i!=optCode.end();++i){ 


5 InterInst*inst=*i,; 

6 Operator op=inst->getop(); 

7 if(inst->isDead||op==O0P_DEC)continue; 
8 Var*rs=inst->getResult(); 

9 Var*arg1l=inst->getArg1(); 

10 Var*arg2=inst->getArg2(); 

11 if(rs)rs->live=true; 

12 if(arg1i)arg1i->live=true,; 

13 if(arg2)arg2->live=true,; 

14 } 

15 for(list<InterIinst*>::iterator i=optCode.begin(); 
16 i!=optCode.end();++i){ 

17 InterInst*inst=*1i,; 

18 Operator op=inst->getop(); 

19 if(op==OP_DEC){ 

20 Var*arg1=iIinst->getArg1( ) ， 

21 if(!arg1i->live)inst->isDead=true; 
22 } 

23 } 

24 return ， 

25 } 

26 stop=true; 

27 analyse( ); 

28 for(list<InterIinst*>:;:iterator i=optCode.begin(); 
29 i!=optCode.end();++i){ 

30 InterInst*inst=*i,; 

31 if(inst->isDead)continue; 

32 Var*rs=inst->getResult(); 

33 Operator op=inst->getop(); 

34 Var*arg1l=inst->getArg1(); 

35 Var*arg2=inst->getArg2(); 

36 if(op>=0P_AS&&op<=0P_LEA| |op==0P_GET){ 

37 if(rs->getPath().size()==1)continue; 

38 if(!inst->liveInfo.out.get(rs->index) 

39 | |op==OP_AS&&rs==arg1){ 

40 inst->isDead=true; 

41 stop=false; 

42 } 

43 

44 else if(op==OP_CALL){ 

45 if(!inst->liveInfo.out.get(rs->index)) 
46 inst->callToProc(); 

47 } 

48 } 

49 elimateDeadCode( stop); 

50 } 


第 2~25 行 处 理 变量 声明 指令 OP DEC， 第 26~49 行 对 死 代码 进行 标 
lo 


第 26 行 设 定 stop 标 记 ， 期 望 算法 可 以 终止 。 第 27 行 调用 analyse 进 


行 活跃 变量 分 析 。 
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第 28~48 行 遍历 所 有 指令 ， 标 记 死 代码 。 第 49 行 递归 调用 
elimateDeadCode 进 行 死 代码 消除 。 


第 36~43 行 处 理 一 般 的 变量 定 值 指令 ， 第 37 行 跳 过 对 全 局 变量 的 
定 值 指 令 ， 第 38 行 表示 被 赋值 的 变量 rs 不 在 指令 的 出 口 集合 中 ， 第 39 
行 识别 形 如 “x=x” 的 指令 ， 第 40 行 将 指令 标记 为 死 代 码 。 第 41 行 设 定 
stop 为 false， 需 要 再 次 运行 死 代码 消除 算法 ， 这 是 因为 消除 死 代 码 
后 ， 可 能 使 原本 的 活跃 变量 数据 流 信息 发 生变 化 。 


第 44~46 行 处 理 函 数 调用 指令 ， 如 果 函 数 返 回 值 没 有 被 使 用 的 
话 ， 则 将 有 返回 值 函 数 调用 指令 OP_CALL 修 正 为 无 返回 值 函 数 调用 指 
令 OP_PROC。 


当 没 有 新 的 死 代码 被 标记 时 ，stop 个 设置 为 tue， 此 时 人 处理 变量 的 


声明 指令 。 


第 3~14 行 将 所 有 的 非 死 代 码 和 非 OP_DEC 指 令 的 结果 和 参数 变量 
标记 为 活跃 的 ， 第 15~23 行 处 理 OP_DEC 指 令 ， 如 果 指 令 的 操作 数 arg1 
变量 不 是 活跃 的 ， 则 将 OP_DEC 指 令 标 记 为 死 代码 ， 达 到 清洗 变量 声 
明 指 令 的 目的 。 


让 3” 寄 仔 三 分 配 


CPU 内 的 寄存 婴 有 比 内 存 更 高 的 访问 效率 ， 但 是 寄存 器 资源 非 第 
有 限 ， 如 何 合理 地 利用 寄存 着 资源 ， 提 高 代码 的 性 能 ， 是 编译 优化 天 
心 的 问题 。 


4.3.1 ”图 看 色 算 法 


当代 码 中 使 用 的 变量 个 数 小 于 寄存 紫 个 数 时 ， 我 们 可 以 为 所 有 的 
变量 各 指定 一 个 寄存 右 ， 实 现 变 量 的 高 效 访问 。 一 般 情况 下 ， 寄 存 絮 
的 个 数 远 小 于 变量 个 数 ， 当 寄存 右 保 存 了 一 个 变量 后 ， 束 不 能 再 休 存 
其 他 变量 。 但 是 也 有 例外 ， 如 果 保 存在 寄存 占 的 变量 在 以 后 不 会 再 被 
用 到 (不 再 活路 ) ， 那 么 后 来 的 变量 便 可 以 保存 在 这 个 寄存 器 中 。 可 
以 看 出 ， 变 量 的 活跃 性 信息 对 寄存 器 的 分 配 至 关 重 要 。 


如 采 两 个 变量 永远 不 能 保存 在 同一 个 寄存 夯 ， 则 称 这 两 个 变量 走 
相互 冲突 的 。 在 变量 的 活跃 性 分 析 结束 后 ， 每 条 指令 的 出 口 集合 内 保 
存 的 变量 都 是 活跃 的 ， 即 在 将 来 会 被 用 到 。 同 时 活跃 的 变量 是 不 能 保 
存在 同一 寄存 万 的 ， 因 此 走 相 互 冲突 的 。 


图 4-8 描 述 了 左 侧 中 间 代 码 经 活跃 变量 分 析 后 ， 产 生 的 活跃 变量 信 
息 ， 即 指令 的 out 集 合 。Entry 指 令 出 口 集合 为 {fa，b，d，f}， 表 示 这 四 
个 变量 是 同时 活路 的， 它们 是 相互 冲突 的 。 如 果 以 变量 为 节点 ， 以 变 
量 之 前 的 冲突 关系 作为 边 ， 构 造 图 数据 结构 (冲突 图 ) ， 便 可 以 表达 
所 有 变量 之 间 的 冲突 关系 。 


图 4-9 揪 述 了 根据 图 4-8 的 变量 活路 性 信息 构造 的 冲突 图 。 我 们 发 
现 ， 对 于 任意 指令 的 出 口 集合 的 变量 ， 它 们 的 冲突 关系 在 冲突 图 内 表 


中 间 代 码 活跃 变量 out 集 合 
{a, b,d, f} 


‘ 


图 4-8 ”变量 活跃 性 信息 


图 4-9 ”冲突 图 


经 典 的 寄存 句 分 配 算法 使 用 的 是 图 着 色 算 法 ， 图 着 色 算法 的 目的 
征 为 图 斑点 分 配 颜色 ， 并 保证 相关 联 的 节点 的 颜色 不 能 相同 。 图 着 色 
算法 的 计算 对 象 是 冲突 图 ， 对 冲突 图 进行 着色 后 ， 每 个 万 点 都 获得 了 
颜色 ， 且 相关 联 市 点 的 颜色 互 不 相同 。 如 来 将 颜色 看 作 寄 存 右 ， 由 于 
冲突 图 的 节操 表示 代码 中 的 变量 ， 因 此 对 冲突 图 的 图 看 色 实 际 是 完成 
了 变量 的 寄存 郁 分 配 。 


由 于 图 着 色 问 题 是 NP 问题 ， 即 不 存在 多 项 式 时 间 的 算法 找到 图 的 
最 佳 着 色 方 案 。 但 是 ， 存 在 多 项 式 时 间 的 近似 最 佳 图 着 色 方 案 ， 基 本 
思想 如 下 : 


1) 选取 度 最 大 的 节点 进行 着 色 。 
2) 与 被 着 色 节 点 相连 的 节点 不 能 再 着 相同 的 颜色 。 


3) 将 被 着 色 节 点 及 其 关联 边 从 图 中 删除 。 


4) 重复 以 上 过 程 ， 直 到 节点 全 部 着 色 或 没有 颜色 可 以 使 用 为 止 。 


如 图 4-10 所 示 图 着 色 算法 的 例子 ,假设 我 们 有 充足 的 颜色 可 以 使 
用 ,颜色 编号 从 1 开始 。 


~、 {1} 局 


(2)d 着 2 号 包 (3)a 着 3 号 包 
EB ， 
“~ * (12.3)} 
{1,3} 8 
ye 
cs {1,2) 
(4)c 着 3 号 色 (5)b 着 4 号 包 (6)e 着 2 号 包 
图 4-10 图 着 色 


对 于 冲突 图 ， 选 取 最 大 度 节 点 f， 着 颜色 1， 节 点 a、b、c、d、e 记 
录 不 能 再 着 1 号 色 ， 然 后 删除 节点 f 及 其 关联 边 。 接 着 选择 最 大 度 节点 
d，d 不 能 着 1 号 色 ， 选 取 颜 色 2 对 qd 着色， 节点 a、b、c 不 能 着 2 号 色 ， 然 
后 删除 节点 d 及 其 关联 边 。 以 此 类 推 ， 将 节点 a 着 3 号 色 ， 市 点 c 着 3 号 
色 ， 节 点 b 着 4 号 色 ， 市 点 e 着 2 号 色 。 


我 们 发 现 原 本 岁 4-10 中 有 6 个 斑点 ， 而 使 用 4 种 颜色 便 可 以 完成 独 的 
着 色 。 换 名 话说， 代码 中 的 6 个 变量 可 以 使 用 4 个 寄存 器 进行 保存 。 如 


宁可 用 的 寄存 紫 只 有 二 个， 那么 按照 上 述 图 着 色 算法 ， 无 法 为 变量 d 分 
配 寄 存 硕 ， 此 时 d 只 能 保存 在 内 存 中 。 


冲突 图 相关 数据 结构 定义 如 下 。 


1 struct Node 


Var*var; // 节 点 对 应 的 变量 
3 int degree; / /节点 的 度 
4 int color / /节点 颜色 
5 Set exColors,; / /节点 排斥 的 颜色 

6 vector<Node*> links; / /关联 边 


7 }; 
8 class CoGraph 


{ / /冲突 图 

9 struct node_less{ / /节点 度 比 较 
10 bool operator()(Node*left,Node*right){ 

11 return left->degree<=right->degree; 

12 } 

13 }; 

14 vector<Node*> nodes; / /节点 序列 

15 }; 


类 型 Node 表 示 神 突 图 的 世上 点 ， 其 字段 var 记 录 世 点 对 应 的 变量 ， 字 
段 degree 实 时 记录 节点 的 度 。 字 上 段 color 记 录 寄 存 器 分 配 后 方 点 的 颜色 ， 
即 寄 存 器 的 编号 ， 初 始 化 为 -1 表示 没有 分 配 寄存 征 。 字 段 exColor 表 示 
节点 在 寄存 器 分 配 过 程 中 不 能 使 用 的 颜色 集合 。 字 段 links 表 示 世 点 的 


相 邻 万 点 集合 。 类 型 CoGraph 表 示 冲 突 图 ，node_less 用 于 比较 两 个 万 点 
度 的 大 小 ， 字 上 段 nodes 记 录 冲 突 图 的 所 有 节点 。 


根据 变量 活路 性 信息 构 千 冲突 图 的 实现 如 下 。 


1 CoGraph::CoGraph 


(list<InterInst*>&optCode, 

2 vector<Var*>&para,LiveVar*]v,Fun*f){ 
3 fun=f， 

4 this->optCode=optCode; 

5 this->lv=l1v; 

/ /活跃 变量 信息 


U.init(regNum,1); 


/ /颜色 集合 全 集 

7 E.init(regNum,o0); 

/ /颜色 集合 空 集 

8 for(unsigned int i=0;i<para.size();++i) / /参数 
9 varList,.push_back(para[i]); 

10 for(list<InterInst*>::iterator i=optCode.begin(); 

11 i!l=optCode.end();++i){ 

12 InterInst*inst=*1i; 

13 Operator op=inst->getop(); 

14 if(op==OP_DEC){ 

// 局 部 变量 

15 Var* arg1=inst->getArg1( ) ， 

16 VarList,.push_back(arg1) 

17 } 

18 if(op==OP_LEA){ 

// 取 址 

19 Var* argi=inst->getArg1(); 

20 if(arg1i)arg1i->inMem=true; 

21 

22 } 

23 Set& liveE=]lv->getE(); 

24 Set mask=liveE; 

25 for(unsigned int i=0;i<varList.size();i++) 

26 mask.set(varList[i]->index); 

27 for(unsigned int i=0;i<varList.size();i++)f{ // 图 节点 
28 Node*node; 

29 if(varList[i]->getArray()||varList[i]->inMem) 
30 node=new Node(varList[i],U); 

31 else 


32 node=new Node(varList[i],E); 


33 varList[i]->index=i; 


34 nodes.push_back(node); 

35 } 

36 Set buf=]iveE,; 

37 list<InterInst*>::reverse_ iterator i; 

38 for(i=optCode.rbegin( ); 

39 i!l=optCode.rend();++i){ 

/ /冲突 边 

40 Set& liveout=(*i)->liveInfo.out; 

41 if(liveout!=buf){ 

42 buf=liveout,; 

43 vector<Var*> coVar=lv->getCoVar(liveout & mask); 
44 for(int j=0;j<(int)coVar.size()-1;j++){ 

45 for(int k=j+1;k<coVar.size();Kk++){ 

46 nodes[coVar[j]->index]-> 

47 addLink(nodes[coVvar[k]->index]); 
48 nodes[coVar[k]->index]-> 

49 addLink(nodes[coVar[j]->index]); 
50 } 

51 } 

52 } 

53 

54 } 


第 5 行 记 隶 变量 活跃 性 信息 ， 第 6~7 行 根据 可 用 寄存 器 个 数 regNum 


初始 化 颜色 集合 全 集 U 和 颜色 集合 空 集 E。 


第 8~22 行 将 参数 变量 和 局 部 变量 添加 到 变量 列表 (全 局 变量 不 进 
行 寄存 希 分 配 ) ， 并 将 取 址 运算 的 操作 数 变量 标记 为 必须 在 内 存 而 不 
能 分 配 寄 存 器 ， 即 inMem 为 true 。 


第 23~26 行 计算 拖 码 集合 mask。 变 量 活跃 性 分 析 时 的 变量 集合 包含 
全 局 变量 ， 而 当前 变量 集合 不 包公 全 局 变量 ， 因 此 将 mask 对 应 全 局 变 
量 的 索引 元 素 设置 为 0， 其 他 变量 对 应 的 索引 元 素 设置 为 1。 当 从 变量 
活跃 性 信息 lv 中 取出 活跃 变量 集合 out 时 ， 需 要 将 out 与 maskj 井 行 与 运 
算 ， 仪 保留 out 集 合 中 与 非 全 局 变量 相关 的 活路 变量 信息 。 


第 27~35 行 构建 冲突 图 节点 ， 第 29~30 行 为 数组 或 标记 为 mnMem 的 
变量 创建 图 节点 ， 并 将 节点 的 exColor 集 合 设 为 全 集 U， 即 该 节点 不 能 
使 用 任何 颜色 。 第 32 行 为 一 般 的 变量 创建 图 节点 ， 并 将 exColor 设 计 为 
空 集 E， 表 示 寄 存 器 分 配 前 ， 节 点 可 以 使 用 任何 原色 。 第 34 行 将 创建 的 
图 市 点 保存 到 节点 列表 nodes 。 


第 36~53 行 为 冲突 图 添加 关联 边 ， 第 36~42 行 人 逆序 遍历 所 有 的 指 
令 ， 并 取出 指令 出 口 处 的 活跃 变量 信息 liveout。 变量 buf 用 于 缕 存 上 一 
条 指令 的 liveout， 避 人 免 连 续 等 值 的 liveout 的 重复 计算 。 


第 43 行 调用 getCoVar 获 取 liveout 对 应 的 所 有 变量 集合 coVar，mask 


用 于 过 滤 全 局 变量 。 
第 44~51 行 将 covar 的 变量 两 两 组 合 ， 调 用 addLink 添 加 冲突 边 。 


1 void Node::addLink 


(Node*node){ 

2 vector<Node*>::iterator pos= 

3 lower_bound(links.begin(),1inks.end(),node); 
4 if(pos==links.end() || *pos!=node){ 

5 links.insert(pos,node); 

6 degreet+t+; 

1 } 

8 } 


函数 addLink 将 当前 万 点 添加 到 万 点 node 的 冲突 边 。lower_bound 画 
数 根据 二 分 查找 算法 将 node 节 点 按 序 插入 到 links。 第 6 行将 节点 的 度 加 
1 O 


冲突 图 构造 完毕 后 ， 调 用 图 着 色 算 法 为 图 节点 分 配 颜 色 。 


1 void CoGraph::regAlloc 
()t 
2 


Set colorBox=U; / /颜色 集合 
3 int nodeNum=nodes.size(); / /节点 个 数 
4 for(int i=0;i<nodeNum;i++){ 
5 Node* node=pickNode(); / /选取 最 大 度 节点 
6 node->paint (colorBox); / /对 节点 着 色 
7 } 
8 } 


第 2 行将 colorBox 初 始 化 为 颜色 集合 全 集 ， 表 示 所 有 的 颜色 。 由 于 
每 次 着 色 都 会 处 理 一 个 节点 ， 因 此 图 着 色 算法 需要 循环 节点 个 数 
nodeNum 次 。pickNode 函 数 用 于 选取 冲突 图 中 度 最 大 的 和 点 ，paint 函 数 
为 该 节 扣 进行 厦 色 。 


pickNode 函 数 的 实现 为 : 


1 Node* CoGraph: :pickNode 


make_heap(nodes.begin(),nodes.end(),node less()); 
Node*node=nodes.front(); 
return node; 


OOWND ~ 


函数 pickNode 调 用 make_heap 函 数 将 图 节点 序列 构造 为 最 大 堆 ， 那 
么 图 节点 序列 的 第 一 个 元 素 nodes.front () 便 是 最 大 度 节 点 。 


paint 函 数 的 实现 为 : 


1 void Node: :paint 


(Set& colorBox){ 


Set availColors=colorBox-exColors; 


~ 
Ly 
ES 


/ /着色 成 功 


水 00 


9 
addExColor (color); 
10 


11 } 
12 

13 degree=-1; 
/ /着色 失败 


14 } 


15 void Node: :addExColor 


(int color){ 


for(int i=0;i<availColors.count;i++){ 
if(availColors.get(i))t{ 


color=i,; 
var->regId=color; 


degree=-1; 


for(int j=0;j<links.size();j++) 


links[j]- 


return ; 


16 if(degree==-1)return; 
经 着 色 

17 exColors,.set(color); 
排除 色 

18 degree--， 

/ /节点 的 度 减 

1 

19 } 


第 2 行 计算 太太 可 以 使 用 的 颜色 集 


// 可 用 颜 


Nee 
肖 
吵 


/ /关联 节 


/7 已 


// 添 加 


合 availColors， 


行 表 示 还 有 闫 


色 可 用 ， 将 颜色 编号 保存 到 变量 的 regId 字 段 ， 表 示 为 变量 分 配 的 寄存 


堪 编 号 。 


第 7 行将 degree 设 置 为 最 小 值 -1， 这 样 该 世 点 就 不 会 成 为 度 最 大 的 


第 8~9 行 处 理 关 联 的 节点 ， 调 用 addExColor 为 关联 节点 添加 不 可 使 


第 13 行 表示 节操 没有 可 用 闫 色 ， 无 法 分 配 寄存 髓 ， 将 degree 设 鞋 
为 -1 不 再 处 理 。 


第 17 行 将 节点 不 可 用 颜色 添加 到 exColor 字 段 ， 并 将 入 点 的 度 -1， 
相当 于 删除 了 该 节点 与 被 着 色 市 点 的 天 联 边 


图 着 色 算法 执行 完成 后 ， 每 个 变量 (全 局 变量 除外 ) 的 regId 字 上段 
都 保存 了 变量 被 分 配 到 的 寄存 髓 编号 。 如 末 该 子 段 为 -1， 则 表示 变量 
未 分 配 到 寄存 大 


4.3.2 ”变量 栈 帧 偏 移 计算 


在 前 面 对 符 号 表 管 理 的 摘 述 中 ， 每 次 同 符 号 表 沐 加 一 个 局 部 变量 
时 ， 都 会 调用 Fun 对 象 的 locate 函 数 为 变量 计算 相对 栈 帧 基 址 的 偏 移 ， 
以 傈 证 局 部 变量 的 正 利 访问 。 然 而 ， 寄 存 郁 分 配 后 ， 部 分 变量 被 保存 
到 寄存 器 中 而 不 再 占用 内 存 。 因 此 ， 我 们 只 需要 为 不 能 分 配 到 寄存 器 
的 局 部 变量 分 配 内 存 即 可 ， 这 样 可 以 减少 栈 帧 空间 的 浪费 。 


如 图 4-11 所 示 ， 原 栈 帧 内 需要 保存 局 部 变量 a、b、c、d， 经 过 寄存 
器 分 配 后 ， 变 量 a 分 配 到 寄存 器 eax， 变 量 c 分 配 到 寄存 器 ebx， 而 变量 
b、d 仍 保存 在 内 存 中 。 将 栈 帧 紧凑 后 ， 原 变量 a、c 的 空间 被 删除 ， 而 
变量 b、d 的 内 存 空间 辣 栈 巾 基 址 处 紧 并 。 栈 巾 紧 竣 后 ， 变 量 b、d 相 对 
于 栈 帧 基 址 的 偶 移 发 生 了 变化 。 因 此 寄存 器 分 配 后 ， 如 果 要 对 栈 帧 内 
存 进 行 紧 赎 ， 则 必须 重新 计算 局 部 变量 的 栈 帧 偏 移 。 


实际 参数 


返回 地 址 


[ebp+?] 
[ebp+8] 


[ebp-l2 ] 


[ebp-16 ] 


a ) 原 栈 帧 b ) 紧凑 后 栈 帧 


图 4-11 局 部 变量 紧 凌 


寄存 如 分 配 后 ， 变 量 的 regId 子 段 记录 了 被 分 配 到 的 寄存 右 编 号 ， 
而 regId=-1 的 变量 仍 需 保存 在 栈 帧 。 男 外 ， 中 间 代 码 的 OP_DEC 指 令 记 
录 了 局 部 变量 的 声明 顺序 。 根 据 这 些 信息 ， 我 们 确定 了 保留 在 栈 帧 内 
的 所 有 局 部 变量 。 但 是 不 同 作用 域 的 变量 可 能 拥有 同样 的 栈 帧 偏 移 
量 ， 比 如 代码 : 


if(x){ 
int a; 
}elsef{ 
int b; 


根据 符号 表 中 对 作用 域 管理 的 摘 述 ，i 分 文 作用 域 和 else 分 文 作用 
域 拥 有 相等 的 作用 域 基 址 ， 故 而 变量 a 和 b 的 栈 帧 仿 移 地 址 相同 。 所 以 
重新 计算 变量 栈 帧 偏 移 量 时 ， 需 要 明确 变量 所 在 的 作用 域 。 在 变量 Var 
对 象 内 ，scopePath 字 段 保存 了 变量 的 作用 域 路 径 ， 即 全 局 作用 域 到 变 


量 所 在 作用 域 的 路 径 。 根 据 局 部 变量 的 作用 域 路 径 ， 可 以 完全 还 原 代 
码 的 作用 域 仍 套 结构 。 例 如 代码 : 


/ /全 局 作用 域 


0 
void fun(){ // 画 数 作 
域 


int a; 
// 定 义 


if(a){int b;} //if 作 用 域 


2， 定义 


b 


else 
//else 作 用 域 


3 
int c; // 定 


while(a){int d;} //wWhile 作 用 域 


} 
int e[10]; // 定 


cm 


所 有 局 部 变量 的 作用 域 路 径 为 : 


PATH(a, b, c, d, e)={/0/1, /0/1/2, /0/1/3, /0/1/3/4, /0/1}: 


我 们 可 以 根据 如 下 栈 帧 偏 移 算法 构建 作用 域 树 ， 并 求解 变量 的 栈 
蚌 偏 移 量 。 


1) 创建 根 作 用 域 节 点 0， 其 栈 帧 偏 移 初 始 化 为 0。 


2) 取 下 一 个 dec 指 令 保存 的 未 分 配 寄存 器 的 局 部 变量 ， 获 得 其 作 
用 域 路 径 。 


3) 从 左 到 右 解析 作用 域 路 径 ， 并 从 树 根 处 开始 自 顶 向 下 进行 匹 
配 。 如 果 作 用 域 节 点 不 存在 则 创建 作用 域 节 点 ， 痢 创建 的 作用 域 节 点 
初始 化 为 父 忆 点 的 栈 帧 偶 移 。 


4) 取出 作用 域 路 径 匹配 结束 时 的 作用 域 节 点 ， 将 变量 的 大 小 累加 
到 作用 域 节 点 的 栈 帆 偶 移 ， 并 将 新 的 栈 帧 侦 移 设置 为 变量 的 栈 帧 亿 
移 。 


5) 跳 转 到 2) 处 ， 直 到 所 有 的 指令 处 理 完毕 。 


假定 前 面 示例 代码 的 要 量 都 未 分 配 到 寄存 邵 ， 则 使 用 栈 帧 侦 移 算 
法 构造 作用 域 树 ， 算 法 执行 流程 如 图 4-12 所 示 。 图 中 第 1 步 首 先 将 根 的 
作用 域 初始 化 为 0， 其 作用 域 栈 蚌 侦 移 初 始 值 为 0， 当 前 值 万 0。 第 2 步 
处 理 局 部 变量 a 的 声明 ， 取 出 作用 域 路 径 %0/1”， 与 作用 域 树 匹配 时 ， 
不 存在 节点 1， 因 此 创建 节点 1， 其 栈 帧 偶 移 初始 值 为 父 节 点 栈 帧 偏 移 
的 当前 值 ， 然 后 将 变量 a 的 大 小 4 素 加 到 作用 域 1 的 栈 蚌 偶 移 ， 因 此 得 到 
变量 a 的 栈 帧 偏 移 为 4。 类 似 地 ， 得 到 变量 b 的 栈 帧 偏 移 为 8， 变 量 c 的 栈 
帧 偏 移 为 9， 变量 4 的 栈 帧 偏 移 为 12。 处 理 局 部 数组 e 的 声明 时 ， 取 出 作 


用 域 路 径 “/0/1”"， 与 作用 域 树 匹 配 得 到 市 点 1， 作 用 域 节点 1 的 当前 栈 帧 
偏 移 为 4， 累 加 变量 e 的 大 小 后 得 到 数组 e 的 栈 帧 偏 移 为 44 。 
(Dn (0) 0:0 CW) 0:0 
CE 0:4 】 0:4 


4:8 全) 


(1) 初 始 化 树 根 /0 (2)int a 作用 域 /0/1 (3)int b 作 用 域 /0/1/2 


(4)int c 作 用 域 /0/1/3 (5)int d 作 用 域 /0/1/3/4 (6)int e[10] 作 用 域 /0/1 
图 4-12 ” 栈 帧 偏 移 计算 执行 流程 图 


作用 域 树 相关 的 数据 结构 定义 为 : 


struct Scope 


1 
{ 
2 struct scope_ less{ 

3 bool operator()(Scope*left,Scope*right){ 
4 return left->id<right->id; 
5 

6 

7 

/ 


Lu 
int id; 
/作用 域 编号 


8 int esp; 
// 栈 帧 偏 移 


9 Vector<Scope*> children,; // 子 作用 域 


10 
// 父 节点 


11 }; 


Scope*parent; 


12 class CoGraph 


Scope* SCRoot ， 


域 


类 型 Scope 表 示 作 用 域 树 的 下 点。 男 数 对 象 scope_less 用 于 比较 两 个 
作用 域 节 点 的 大 小 ， 字 段 id 记录 作用 域 的 编号 ，esp 记 录 作 用 域 的 栈 帧 
偏 移 ，children 记 录 作 用 域 的 子 作 用 域 序列 ，parent 记 录 父 作用 域 节 点 。 
冲突 图 类 型 CoGraph 内 的 scRoot 记 录 了 作用 域 树 的 树 根 。 


根据 作用 域 树 数据 结构 ， 栈 帧 偏 移 计 算 算法 实现 如 下 : 


1 void CoGraph::stackAlloc 


scRoot=new Scope(0,o0); 


getArg 
10 
// 没 有 分 


11 
域 


esp 


:用 域 


Int max=0; 

for(list<InterInst*>::iterator i=optCode.begin(); 
i!l=optCode.end();++i){ 
InterInst*inst=*1i; 
Operator op=inst- 


if(op==O0P_DEC){ 


Var* arg1=inst- 


1(); 
配 到 寄存 器 


if(argi->regId==-1){ 


int& esp=getEsp(arg1i->getPath()); // 作 


12 int Size=arg1->getSize(); 
/ /变量 大 小 


13 Size+=(4-size%4)%4; 
//4 字 节 对 齐 


14 esp+=size; 
15 argi->setoffset(-esp); 


16 if(esp>max)max=esp; 
17 } 
18 } 


} 
20 fun->setMaxDep(max); 


第 2 行 创建 根 作用 域 节 点 ， 即 全 局 作用 域 0， 第 3 行 的 max 变 量 记录 
栈 帧 紧凑 后 的 栈 帧 大 小 。 


第 4~9 行 遍历 中 间 代 码 ， 并 取出 局 部 变量 声明 指令 OP_DEC 和 局 部 


变量 arg1。 


第 10 行 判断 变量 的 regId 如 采 等 于 -1， 表 示 变 量 没 有 分 配 到 寄存 
器 ， 需 要 计算 栈 帧 侦 移 。 


第 11 行 调用 getEsp 函 数 取 出 变量 所 在 作用 域 万 点 的 esp 变 量 。 


第 12~14 行 将 变量 大 小 按照 4 字 世 对 齐 后 ， 素 计 到 作用 域 栈 帧 侦 移 


eSp。 


第 15 行 将 值 -esp 设 置 为 变量 的 栈 帧 侦 移 ， 第 16 行 计算 栈 帆 的 大 小 ， 
第 20 行 将 紧 竣 后 的 栈 帧 大 小 保存 到 函数 对 象 。 


函数 getEsp 根 据 变 量 的 作用 域 路 径 查 询 或 构建 作用 域 树 。 


1 int& CoGraph::getEsp 


ee path){ 
Scope* scope=scRoot,; 


3 for(unsigned int i= 1; i<path.size();i++) / /查找 作用 域 
4 scope=scope->find(path[i]); 
5 return scope->esp; 
/ /返回 作用 域 
esp 
6 } 
7 Scope* Scope::find 
(int 1){ 
Scope*sc=new Scope(i,esp); // 创 
建 子 作用 域 
9 vector<Scope*>::iterator pos=lower_bound 
10 (children.begin(),children.end(),sc,scope_less()); 
11 if(pos==children.end() || (*pos)->id!=i){ 
12 children.insert(pos, sc); 
/ /插入 作用 域 
13 sc->parent=this,; 
/ /记录 父 节点 
14 } 
15 elsef 
16 delete sc; 
17 sc=*pos; 
/ /找到 作用 域 
18 } 
19 return sc; 
20 } 


第 3~4 行 从 左 同 右 处 理 作用 域 路 径 path 的 每 个 作用 域 编号， 并 以 此 
为 参数 调用 find 查 询 作 用 域 节 点 ， 记 录 到 scope。 作 用 域 路 径 裔 历 结 
后 ，scope 内 保存 了 作用 域 路 径 path 对 应 的 作用 域 对 象 。 


函数 find 根 据 编 号 查找 当前 作用 域 的 子 作用 域 。 第 8 行 创建 查询 季 
上 态 sSc， 第 9~10 行 使 用 二 分 查找 算法 查询 作用 域 编号 为 参数 的 作用 域 广 


点 ， 比 较 函 数 为 scope_less。 


第 12~13 行 表示 为 查询 到 编号 为 i 的 作用 域 所 点 ， 将 编号 i 的 作用 域 
节点 插入 到 children 序 列 ， 并 记录 当前 作用 域 节 点 到 新 创建 的 子 作用 域 


的 parent 字 段 。 


第 16~17 行 表示 找到 了 编号 为 i 的 作用 域 了 点， 于 十 将 查询 斑点 删 
除 ， 并 返回 得 找到 的 作用 域 玉 点 。 


通过 图 看 色 算 法 和 栈 帧 偏 移 计 算 ， 完 成 了 变量 的 寄存 紫 分 配 和 栈 
帧 内 存 的 紧凑 ， 为 生成 更 高 效 的 目标 代码 提供 了 可 能 。 不 过 本 节 设 计 
的 寄存 紫 分 配方 案 只 是 一 种 粗略 的 实现 ， 与 现代 编译 僻 的 寄存 髓 分 配 
还 有 很 大 差距 ， 仅 说 明了 寄存 器 分 配 的 主要 思想 。 在 目标 代码 生成 阶 
段 ， 需 要 考虑 的 问题 还 有 很 多 。 


对 于 CISC 指 令 集 ， 通 用 寄存 器 的 个 数 十 分 有 限 。 在 32 位 的 x86 指 令 
集中 ， 通 用 寄存 器 只 有 8 个 ， 除 去 寄存 器 ebp 和 esp 用 于 画 数 栈 帧 管理 不 
能 用 于 存放 操作 数 和 计算 结果 外 ， 目 标 代码 生成 时 还 使 用 了 额外 的 通 
用 寄存 器 用 于 缓存 操作 数 和 计算 结果 ， 因 此 留 给 寄存 器 分 配 的 寄存 器 
资源 就 更 加 紧张 了 。 如 果 使 用 前 面 描述 的 目标 代码 生成 算法 ， 本 市 实 
现 的 寄存 器 分 配 算 法 可 能 更 适用 于 RISC 指 令 集 ， 因 为 RISC 指 令 集 提供 
了 更 多 的 通用 寄存 器 。 


不 同 的 函数 将 寄存 器 分 配给 目 号 的 变量 ， 那 么 在 函数 调用 前 后 需 
要 对 通用 寄存 闫 进行 保存 和 恢复 操作 ， 以 避免 寄存 夯 数 据 的 宴 乱 。 羽 
外 ， 我 们 故 函数 的 参数 分 配 了 寄存 郁 ， 为 了 保证 函数 对 参数 访问 时 ， 
参数 值 已 经 保存 在 寄存 器 ， 必 须 在 函数 最 开始 执行 时 将 参数 加 载 到 对 
应 的 寄存 右 。 


4.4 宁 扎 优化 


目标 代码 生成 阶段 ， 产 生 的 汇编 代码 并 非 足 够 宙 洁 ， 其 中 可 能 存 
在 可 以 化 简 的 指令 序列 。 比 如 表达 式 “a=b+tc; ”， 假 设 变 量 a、b、c 都 是 
全 局 int 变 量 ， 那 么 生成 的 汇编 代码 可 能 大 
mov eax, [b] 
mov ebx,[c] 


add eax, ebx 
mov [c],eax 


和 ODP 


我 们 希望 最 终 的 汇编 代码 形式 为 : 


mov eax, [b] 
add eax, [c] 
mov [c],eax 


这 是 因为 x86 指 令 集 提供 了 操作 数 为 寄存 右 和 内 存 的 add 指 令 ， 
此 可 以 将 指令 2 和 3 合并 为 一 条 指令 。 我 们 可 以 借鉴 颖 孔 优化 的 思想 ， 
实现 对 汇编 代码 的 优化 。 


宏和 孔 优化 器 对 目标 代码 线性 扫描 ， 使 用 一 个 固定 大 小 的 济 动 窗口 
监视 扫描 位 置 的 代码 序列 ， 并 将 该 序列 与 已 设 定 的 代码 模板 进行 匹 
配 ， 执 行 指令 的 替换 、 消 除 、 合 并 等 优化 动作 。 如 图 4-13 所 示 ， 滑 动 窗 
口 〈 图 中 黑色 区 域 ) 发现 局 部 代码 序列 “mov ebx，[cJ* 和 “add eax， 
ebx 与 已 有 的 代码 模板 匹配 ， 因 此 使 用 对 应 的 代码 简化 规则 将 其 化 痛 


为 “add eaax，[c]j”。 然 后 窗口 继续 同 后 请 动 ， 移 入 后 续 的 指令 ， 重 复 以 
上 过 程 。 


mov ebx [c] 
add eax ,ebx 


add eax [c ] 
mov [a] ,eax 


EE 


图 4-13 ” 蜂 孔 优化 


为 了 简化 问题 的 讨论 ， 我 们 假定 滑动 窗口 的 大 小 为 2， 且 代码 模板 
匹配 成 功 后 ， 使 用 一 条 指令 替换 滑动 窗口 的 代码 序列 。 


舌 筷 优化 涉及 的 数据 结构 定义 如 下 。 


1 class Window 


{ 


2 list<Asm*> cont; // 窗 口内 的 指令 


3 list<Asm*>& code / /目标 代码 序列 


4 list<Asm*>::iterator pos / /窗口 位 置 


5 void replace(Asm* inst); / /代码 化 简 

6 public: 

7 bool move(); / /窗口 移动 函数 
8 bool match( ) ; / /指令 模板 匹配 
9 }; 

10 class PeepHole 

{ 

11 list<Asm*>& code / /目标 代码 序列 
12 public: 

13 void filter(); // 罕 孔 优化 
14 }; 


滑动 窗口 类 Window 的 定义 中 ， 字 段 cont 表 示 被 请 动 窗口 “监视 ”的 
指令 序列 ，code 为 目标 代码 序列 ，pos 字 段 表 示 滑 动 窗口 在 目标 代码 的 
位 置 。 函 数 move 用 于 向 后 移动 滑动 窗口 ，match 将 窗口 内 的 指令 序列 与 
代码 模板 匹配 ， 并 调用 replace 函 数 对 代码 进行 化 简 。 


舌 了 筷 优 化 类 PeepHole 的 定义 中 ， 字 上 段 code 表 示 目 标 代码 序列 ， 函 数 
filterj 井 行 颖 孔 优 化 操作 。 


类 Window 的 move 函 数 实现 滑动 窗口 辣 后 移动 ， 实 现代 码 为 : 


1 bool Window: :move 


for(pos==code.end()){ 
Arm* inst=*pos; 
cont.pop_front(); 
cont.push_back(inst); 
pos++, 
return true; 


~IODOUOA 上 whP 一 


} 
9 return false; 
10 } 


由 于 限定 滑动 窗口 的 大 小 为 2， 且 只 使 用 一 条 指令 执行 化 简 操 作 。 


因此 窗口 滑动 时 ， 只 需要 将 窗口 内 移入 一 条 后 继 指令 即 可 。 


第 4~5 行 将 cont 的 首 元 素 弹 出 ， 然 后 压 入 后 继 指令 
窗口 的 位 置 。 


第 6 行 素 加 请 动 


类 Window 的 match 函 数 实现 代码 模板 的 匹配 ， 实 现代 码 为 : 


1 void Window: :match 


(){ 
2 


Asm& inst2=**cont.back(); // 取 出 指令 


2 

4 AsmOp op1=inst1.0p， 

5 AsmArg al1=inst1.arg1， 
6 AsmArg a12=inst1.arg2; 
7 AsmOp op2=inst2.op; 

8 AsmArg a21=inst2.arg1; 


9 AsmArg a22=inst2.arg2; 

10 if(op1,.isMov( )&8&0p2.isAdd( )&& 

11 all1.isReg( )&&a21.isReg( )&&a22.isReg( )&&a1l1l==a22){ 
12 replace(new Asm("add",a21,a12)); 

13 } 

14 else if 

他 指令 模板 

5 

16 } 


17 void Window: :replace 


1 Inst){ 
cont ,front()->setDead( ) 


人 *cont.back( )=*inst,; 
20 delete inst,; 
21 } 


第 2~9 行 ，match 芳 数 将 沸 动 窗口 内 的 指令 的 内 容 取 出 。 


Asm& inst1=**cont.front(); // 取 出 指令 


// 其 


第 10~12 行 执行 代码 模板 匹配 ， 该 代码 模板 来 源 于 图 4-13 的 例子 。 
即 判 断 如 果 指 令 1 是 mov 指 令 ， 指 令 2 是 add 指 令 ， 指 令 1 的 第 一 个 操作 数 
和 指令 2 的 第 二 个 操作 数 都 是 寄存 郁 且 为 同一 个 寄存 郁 ， 指 令 2 的 第 一 
个 操作 数 也 是 寄存 右 ， 那 么 将 这 两 条 指令 化 们 为 一 条 add 指 令 ， 控 作 数 
1 为 指令 2 的 第 一 个 操作 数 ， 操 作 数 2 为 指令 1 的 第 二 个 操作 数 。 


代码 化 简 由 replace 实 现 ， 第 18~19 行 描述 了 化 简 的 过 程 。 由 于 滑动 
窗口 的 大 小 为 2， 因 此 只 需要 将 第 一 条 指令 设置 为 死 指 令 ， 将 第 二 条 指 
令 的 内 容 用 新 指令 替换 。 这 样 当 窗口 移动 后 ， 标 记 为 死 的 指令 从 滑动 
窗口 中 移出 ， 被 替换 的 指令 可 以 与 后 继 指 令 形 成 新 的 组 合 再 与 代码 模 
板 匹配 。 


上 述 代 码 只 给 出 了 图 4-13 摘 述 的 代码 模板 的 匹配 实现 ， 我 们 可 以 根 
据 实际 需要 添加 新 的 代码 模板 和 对 应 的 简化 规则 ， 这 体现 了 括 了 筷 优 化 
算法 的 灵活 性 。 


根据 请 动 窗口 的 move 和 match 函 数 ， 实 现 宁 孔 优化 的 代码 为 : 


1 void PeepHole::filter 


()t 
2 Window win(code); 
3 bool flag=false,; // 记 录 匹 配 
成 功 出 现 标记 
4 dof{ 
5 win.match(); // 执 
行 匹配 
}while(win.move()); // 移 


6 
动 滑动 窗口 


list<Asm*>::iterator i=code.begin(),k=i; 


7 
8 for(;i!=code.end();i=k){ / /清除 死 
指令 

9 K++， 

10 if((*i)->isDead()) 

11 code.remove(i); 

12 } 


第 2 行 创建 消 动 窗口 win， 第 4~6 行 通过 循环 调用 move 范 数 将 滑动 窗 
口 同 后 移动 ， 并 且 每 次 窗口 滑动 后 ， 部 会 调用 match 函 数 与 代码 模板 库 
进行 匹配 ， 执 行 奉 换 等 操作 进行 目标 代码 优化 。 


第 8~12 行 对 目标 代码 进行 清洗 ， 将 死 指 令 从 目标 代码 中 删除 。 


4.5 ”本章 小 结 


本 章 通过 对 中 间 代 码 优化 和 目标 代码 优化 的 看 干 经 典 优化 算法 的 
实现 ， 描 述 了 编译 优化 闫 的 实现 方式 。 我 们 从 数据 流 分 析 框 以 开始 ， 
讨论 了 中 间 代码 优化 算法 的 实现 。 帝 量 传播 将 变量 的 初始 值 传递 到 表 
达 陈 计算 指令 中 ， 复 写 传播 降低 了 变量 之 间 的 关联 程度 ， 从 而 为 死 代 
码 消除 提供 更 多 的 可 能 ， 死 代码 消除 根据 变量 的 活跃 性 分 析 消 除 对 程 
序 结果 无 影响 的 指令 。 寄 存 器 分 配 的 图 着 色 算法 也 使 用 了 变量 的 活路 
性 信息 数据 流 ， 同 时 为 了 紧凑 栈 帧 内 存 ， 讨 论 了 变量 栈 帧 偏 移 的 计算 
方法 。 最 后 ， 我 们 使 用 宏和 孔 优 化 的 方式 对 目标 代码 进行 了 优化 。 至 
此 ， 我 们 完成 了 编译 优化 器 的 所 有 实现 。 


第 5 章 ”二 进 制 表示 
工 欲 善 其 事 ， 必 先 利 其 器 。 


一 《论语 》 


经 过 编译 器 的 处 理 ， 高 级 语言 程序 被 转化 为 目标 机 器 的 汇编 代 
码 。 根 据 编译 系统 的 流程 ， 下 一 步 便 是 将 汇编 代码 转化 为 目标 机 器 的 
二 进 制 指令 。 鉴 于 汇编 器 的 实现 过 程 中 ， 牵 涉 了 大 量 机 器 指令 和 目标 
文件 格式 的 内 容 ， 因 此 ， 在 描述 汇编 器 的 实现 前 ， 需 要 对 此 有 清晰 的 
了 解 。 


在 编译 器 的 构造 阶段 ， 除 了 代码 生成 阶段 要 考虑 程序 的 运行 时 存 
储 ， 我 们 不 需要 关心 太 多 底层 的 细节 。 而 在 汇编 器 和 链接 恬 的 构造 阶 
段 ， 必 须 清 楚 了 解 二 进 制 代 码 和 二 进 制 文件 的 细节 。 我 们 的 编译 器 产 
生 的 是 Intel x86 汇 编程 序 ， 而 编译 系统 生成 的 二 进 制 文件 是 Linux 系 统 
下 的 ELF 文 件 格式 的 文件 。 因 此 ， 本 章 讨论 的 主题 是 x86 指 令 格 式 和 
ELF 文 件 格式 。 


5.1  X86 指 令 


要 了 解 Intel x86 指 令 格式 的 细 和 ， 最 好 的 参考 质料 喝 过 于 Intel 指 令 
开发 手册 ， 不 过 上 千 页 的 开发 手册 令 人 难以 抓 到 重点 。 我 们 构造 编译 
系统 的 目的 一 方面 是 透析 编译 的 细 下 和 流程 ， 另 一 方面 也 试图 深入 了 
解 Intel 的 体系 结构 和 指令 格式 的 细 广 。 当 然 ， 本 书 参 考 了 Intel 指 令 开 发 
手册 的 部 分 内 容 ， 尽 可 能 将 指令 的 细 市 展示 出 来 。 


图 5-1 摘 述 了 x86 指 令 的 通用 格式 。 一 般 的 x86 指 令 包含 6 个 部 分 : 指 
令 前 级 (Instruction Prefix) 、 操 作 码 (Opcode) 、ModR/M 字 段 、SIB 


字段 、 偏 移 (Displacement) 和 立即 数 (Immediate) 。 


和 .到 2 过 0 天 "区 写 有 过 0 


| mod |reg/opcode| rm | scale| index | base | 
图 5-1 x86 指 令 格 式 
令 中 一 定 会 包含 操作 码 字段 ， 它 表示 指令 的 功能 ， 而 其 他 字段 
选 的 。x86 采 用 不 定 长 指令 编码 ， 正 常 的 x86 指 令 长 度 最 短 为 1 个 


百 
证 
字 订 ， 最 长 为 15 个 子 广 。 指 令 前 级 为 指令 提供 附加 的 功能 ，ModR/M 和 


可 


SIB 字 段 一 般 提供 操作 数 的 访问 模式 ， 偏 移 和 立即 数字 段 直接 编码 到 指 
令 内 部 。 下 面 对 这 些 字段 的 细节 逐一 进行 说 明 。 


5.1.1 指令 前 级 
在 前 面 讨论 的 编译 器 实现 中 ， 并 未 生成 包含 指令 前 缀 的 汇编 指 
令 。 指 令 前 缀 一 般 用 于 增强 指令 功能 ， 调 整 内 存 操作 数 访 问 属性 等 。 
指令 前 缀 可 以 分 为 如 下 几 类 : 


1) 操作 数 大 小 重 写 前 级 。 二 进 制 编码 为 0x66。 操 作 数 大 小 重 写 发 
生 在 指令 操作 数 大 小 与 当前 汇编 上 下 文 默 认 操作 数 大 小 不 一 致 的 情 
况 。 例 如 32 位 汇编 语言 指令 : 


mov eax,1 


其 指令 编码 为 : 


b8 601 00 00 00 


而 在 16 位 汇编 语言 中 ， 不 能 直接 访问 寄存 郁 eax， 因 此 上 述 指令 编 
码 的 实际 含义 为 : 


mov ax,1 


如 琳 16 位 汇编 语言 要 访问 32 位 寄存 如 eax， 必 须 使 用 前 级 修改 操作 
数 大 小 : 


66 


b8 01 00 00 00 


通过 加 入 操作 数 大 小 重 写 前 级 ， 达 到 “强制 ”访问 32 位 寄存 如 eax 的 
目的 。 类 似 的 情况 也 发 生 在 32 位 汇编 语言 访问 16 位 寄存 万 的 情况 。 


2) 地 址 大 小 重 写 前 级 。 二 进 制 编码 为 0x67。 地 址 大 小 重 写 发 生 在 
和 令 内 存 操 作 数 地 址 大 小 与 当前 汇编 上 下 文 默 认 地 址 大 小 不 一 致 的 情 
况 。 例 如 32 位 汇编 语言 指令 : 


mov eax, [0x12345678] 


其 指令 编码 为 : 


al 78 56 34 12 


而 在 16 位 汇编 语言 中 ， 不 能 直接 访问 32 位 地 址 ， 因 此 上 壕 指 令 编 
码 内 的 地 址 被 截断 : 


al 78 56 


实际 汇编 指令 形式 为 : 


mov ax, [0x5678| 


如 果 16 位 汇编 语言 要 访问 32 位 地 址 ， 必 须 使 用 前 缀 修改 地 址 大 


小 : 


67 


al 78 56 34 12 


通过 加 入 地 址 大 小 重 写 前 级， 达到 “强制 * 访 问 32 位 地 址 的 目的 。 
类 似 的 情况 也 发 生 在 32 位 汇编 语言 访问 16 位 地 址 的 情况 。 


3) 段 重 写 前 级 。 如 有 果 要 修改 指令 内 存 操作 数 的 段 寄 存 器 ， 则 需要 
使 用 段 重 写 前 级。 例如 指令 : 


mov eax, [ebx] 


该 指令 使 用 ebx 寄存 天 间 址 访问 内 存 ， 黑 认 当 前 段 寄 存 郁 为 数据 段 
寄存 器 ds。 如 果 需 要 指定 段 寄 存 器 为 es， 那 么 指令 形式 为 : 


mov eaxy es 


: [ebx] 


对 应 的 指令 编码 为 ; 


26 


89 03 


其 中 0x26 表 示 段 寄存 郁 es 对 应 的 指令 前 绥 。 不 同 段 寄 存 瑚 对 应 指令 
前 级 的 二 进 制 编码 见 表 5-1 。 


表 5-1 上段 重 写 前 级 


段 寄 存 融 


指令 前 级 


在 32 位 内 存 模 式 下 ， 对 内 存 操作 数 的 段 重 写 已 经 失去 意义 。 无 论 
是 为 内 存 操作 数 指定 段 寄 存 器 还 是 指定 不 同 的 段 寄 存 器 ， 都 不 会 影响 
指令 的 功能 。 

4) 重复 执行 指令 前 级 。 包 括 rep/repz 和 repnz 指 令 前 级 ， 对 应 的 二 
进 制 编码 分 别 为 0xf3 和 0xf2。 该 类 指令 一 般 用 于 串 操 作 指令 ， 例 如 : 


movsb 


# 令 编码 为 


f3 


a4 


5) lock 前 级 。 二 进 制 编码 为 0xf0。 该 指令 用 于 指令 执行 时 锁定 地 
址 总 线 ， 保 证 对 称 多 处 理 器 (SMP) 环境 下 对 内 存 数 据 访 问 的 原子 
性 。 例 如 : 


lock 


add eax, [ebx] 


上 令 编 码 为 : 


fo 


01 03 


6) 分 支 提 示 前 级 。 分 文 提 示 前 缀 仅 用 于 条 件 跳 转 指令 Jcc， 表 示 
条 件 跳 转 在 大 多 数 情 况 下 是 否 发 生 。 前 缀 ht 表示 Jcc 指 令 大 多 数 情况 跳 
转 成 功 ， 二 进 制 编码 为 0x3e， 前 级 hnt 表 示 Jcc 指 令 大 多 数 情 况 不 发 生 跳 
转 ， 二 进 制 编码 为 0x2e。 例 如 指令 : 


hnt 


jne L 
L: 


该 指令 表示 jne 指 令 大 多 数 情况 不 会 跳 较 到 L， 其 指令 编码 为 : 


2e 
of 85 00 00 00 00 


以 上 讨论 了 传统 的 x86 指 令 前 缀 ， 在 AMD 推 出 x86 扩 展 64 位 技术 之 
后 ， 增 加 了 新 的 用 于 访问 64 位 数据 的 指令 前 级 (REX prefix) ， 而 原本 
的 x86 指 令 前 级 称 为 原始 前 级 (Legacy prefix) 。 因 此 64 位 汇编 指令 可 
以 使 用 这 两 类 指令 前 级 ， 而 32 位 汇编 指令 仅 能 使 用 Legacy 前 级 。 由 于 
我 们 只 关心 32 位 汇编 指令 的 内 容 ， 因 此 不 再 对 REX 前 级 进行 深入 讨 


论 。 


5.1.2 ”操作 码 


指令 的 操作 码 表达 了 指令 的 基本 功能 ， 征 指令 中 必 不 可 少 的 字 
段 ， 其 长 度 为 1~3 字 市 不 等 。1 字 市 操作 码 与 指令 前 缀 共享 指令 第 一 个 
字 市 的 空间 (0x00 一 0xff) ， 这 是 因为 指令 前 缀 是 可 选 的 ，CPU 的 解码 
妖 根 据 指令 第 一 个 字 广 的 值 确定 该 字 广 是 指令 前 级 还 古 操 作 码 。 比 如 
遇 到 指令 第 一 个 字 市 为 0x66， 则 为 操作 数 大 小 重 写 前 级 。 如 末 遇 到 
0xb8， 则 为 mov 指 令 的 一 种 操作 码 。2 子 太 操 a 作 人 码 总 是 以 0x0f 开 始 ， 紧 
跟 男 一 个 字 方 。 其 中 0x0f 字 广 称 为 操作 码 的 转 义 前 级 (Escape Prefix) 
或 园 义 操作 码 。 例 如 jne 指 令 的 操作 码 为 “0f 85”。 与 2 字 世 操作 码 类 似 ， 
3 子 太 操作 码 也 是 使 用 转 义 人 前缀 的 方式 进行 扩展 编码 。3 子 广 控 作 码 的 
转 义 前 缀 包含 “0f 38” 和 “0f 3a” 两 种 ， 转 义 前 缀 后 紧 跟 男 一 个 字 太 共同 表 
示 操 作 码 。 


我 们 设计 的 编译 如 生 成 的 汇编 指令 的 操作 码 长 度 都 是 2 字 节 以 内 ， 
因此 我 们 只 讨论 1 字 和 和 2 字 闻 的 操作 码 。 根 据 操 作 码 表达 指令 功能 的 
不 同方 式 ， 将 香 见 的 指令 操作 码 分 为 四 类 分 别 讨 论 。 


1) 操作 码 独 立 表示 指令 功能 。 对 于 1 字 节 长 度 指令 ， 其 操作 码 表 
达 了 指令 的 所 有 含义 。 如 表 5-2 中 指令 ret 二 进 制 编码 为 0xcb。 类 似 的 1 字 
廊 编 码 的 指令 比较 少 ， 比 如 nop、leave、int 3 等 。 


表 5-2 ”操作 码 表 (一 ) 


指 令 操作 码 ( 0x ) 举例 
ret cb ret 
nop 90 nop 
leave ca leave 
int 3 GE Tab 3 
jne ze132 0E 8 jne 工 
jmp rel32 e9 jmp 工 
eall mael32 e8 CalLl fun 
int imm8 cd int 0x80 
push imm32 68 push 0x12345 


更 常见 的 是 操作 码 后 附加 操作 数 的 指令 。 比 如 前 面 讨论 过 的 条 件 
跳 转 指令 (Jcc) 的 jne 指 令 ， 便 是 操作 码 “0f 85” 后 紧 跟 4 字 闻 的 目标 标 
签 的 相对 地 址 。 类 似 的 指令 包括 Jcc、jmp、call、int、push， 其 中 rel32 
表示 32 位 相对 地 址 ，imm8 表 示 8 位 立即 数 ，imm32 表 示 32 位 立即 数 。 


仅 使 用 操作 码 束 能 表达 功能 的 指令 ， 其 操作 数 形式 都 比较 商 音 。 
当 操作 数 访问 模式 复杂 时 ， 则 需要 使 用 ModR/M 和 SIB 字 段 补 充 指令 的 
功能 。Intel 指 令 系统 将 操作 数 寻 址 模式 相同 的 一 类 指令 组 成 一 组 ， 使 用 
共同 的 操作 码 表 示 ， 这 样 的 操作 码 称 为 组 属性 操作 码 。 我 们 根据 不 同 
的 指令 对 操作 码 补充 方式 的 不 同 ， 将 操作 码 又 分 为 以 下 (2) 、 
(3) 、 (4) 所 述 的 三 类 。 


2) 组 属性 操作 码 ，ModR/M 和 SIB 字 段 仅 指定 操作 数 访问 模式 。 
这 类 操作 码 仅 定义 了 指令 的 基本 框架 ， 并 未 明确 具体 的 操作 数 ， 有 具体 
的 操作 数 由 ModR/M 和 SIB 字 段 给 出 。 


如 表 5-3 所 示 ， 其 中 r32 表 示 32 位 寄存 器 ，rm32 表 示 32 位 寄存 器 或 
内 存 操作 数 。 例 如 指令 “mov r32，r/m32” 的 操作 码 0x8b 仅 表示 该 指令 可 
以 从 32 位 寄存 器 或 内 存 中 取出 数据 保存 到 32 位 寄存 器 中 ， 但 并 未 说 明 
具体 是 哪个 寄存 器 和 内 存 地 址 。 而 ModR/M 和 SIB 字 段 提供 了 这 样 的 信 
轧 ， 这 两 个 字段 的 具体 细 闻 后 面 会 详细 解释 。 类 似 的 指令 还 有 add、 


sub、cmp、lea、SETcc 指 令 等 。 


表 5-3 ”操作 码 表 (二 ) 


指 令 操作 码 ( 0x ) 举 例 


mov r32,r/m32 8b mOV eax,ebx 


mov r/m32,r32 
add r32,r/m32 


mov [eax],ebx 


add eax,ebx 


add r/m32,r32 


add [eax],ebx 


sub r32,r/m32 2b sub eax,ebx 
sub r/m32,r32 人 29 sub [eax],ebx 
cmp r32,r/m32 3b cmp eax,ebx 
cmp r/m32,r32 39 cmp [eax],ebx 
lea r32,r/m32 8d lea eax, [ebx] 
sete r8 0f 94 sete al 


3) 组 属性 操作 码 ，ModR/M 的 reg 字 段 对 操作 码 作 补充 。 前 面 讨论 
的 ModR/M 字 段 仅 提供 了 指令 的 操作 数 访问 模式 信息 ， 除 此 之 外 ， 
ModR/M 的 reg 字 段 还 具有 对 组 属性 操作 码 进行 补充 的 功能 ， 即 反作用 
于 操作 码 。 


ModR/M 字 六 的 3~5 位 表示 reg 字 段 ， 取 值 范 围 为 0~7， 该 字段 可 以 
对 组 属性 的 操作 码 进行 补充 。 表 5-4 操 作 码 列 中 的 “/” 符 号 后 的 数字 表示 


reg 字 段 的 值 ， 例 如 imul 和 idiv 指 令 的 操作 码 都 征 0xft7， 当 reg=5 时 表示 


imul 指 令 ， 当 reg=7 时 表示 idiv 指 令 。 


表 5-4 ”操作 码 表 (三 ) 


指 令 操作 码 ( 0x ) 举 例 
imul r/m32 imul ebx 
idiv r/m32 £1 £1 idiv ebx 

neg r/m8 | 6. /3 | neg al 
( 续 ) 

指 令 操作 码 ( 0x ) 举 例 

neg r/m32 于 了 /3 neg eax 

inc r/m8 fe /0 inc al 

dec r/m8 fe /1 dec al 
add r32,imm32 B81 #0 add eax, 0xl12345 
sub r32,imm32 281 辐 sub eax, 0x12345 
cmp r32,imm32 和 六 学 cmp eax, 0x12345 


4) 组 属性 操作 码 ， 寄 存 器 编号 补充 操作 码 。 除 了 ModR/M 的 reg 字 
段 可 以 对 操作 码 进行 补充 外 ， 寄 存 占 本 映 的 编号 也 可 以 对 操作 码 进 行 
仆 郊 * 


如 表 5-5 所 示 ，inc 指 令 的 组 属性 操作 码 为 0x40， 当 指定 了 具体 的 操 
作 数 寄存 器 后 ， 需 要 将 该 寄存 器 的 编号 素 加 到 操作 码 中 ， 类 似 的 指令 


还 有 dec、push、pop、mov 等 。 


表 5-5 ”操作 码 表 (四 ) 


指 仿 操作 码 ( 0x ) 共生 

Lr 症 3 40+reg inc eax 

dec r32 48+reg dec eax 

pusiy 32 50+reg push eax 

pop r32 58+reg pop eax 
mov r32,imm32 b8+reg mov eax, 0xl12345 


Intel 指 令 集 中 的 寄存 器 编号 都 是 固定 的 ， 和 常见 的 寄存 器 编号 的 值 如 
表 5-6 所 示 。 


寄存 器 编号 0 1 2 3 4 5 6 
8 位 寄存 器 | | Si | wi bl | an | ch | dh | bh 
16 位 寄存 器 | ax | CX | dx bx | sp | bp | Si | di 


32 位 寄存 器 edx ecx edx ebx esp ebp esi edi 


5.1.3 “ModR/M 字 段 


在 讨论 操作 码 的 内 容 时 ， 我 们 涉及 了 ModR/M 字 段 ( 见 图 5-2) 对 
操作 码 补充 或 标识 操作 数 访问 模式 的 功能 ， 下 面 详细 讨论 该 子 段 的 具 
体 侣 义 。 

-i 3 2 0 


oa [reg7opeode | rm | 


图 5-2 ”ModR/M 字 上 段 


ModR/M 字 段 长 度 为 1] 字 节 ， 其 中 0~2 位 为 rm 字段 、3~5 位 为 reg 字 


段 、6~7 位 为 mod 子 段 。reg 字 段 保 存 寄存 器 编号 或 操作 码 的 补充 信息 


r/m 字 上 段 表 示 男 一 个 操作 数 ， 也 你 存 寄存 占 编 号 ， 该 编号 指定 的 寄存 胡 
中 可 能 是 


操作 数 本 喘 ， 也 可 能 是 存放 与 操作 数 的 内 存 地 址 相关 的 信 
轧 。mod 字 段 为 rm 字段 指定 具体 的 操作 数 模 式 ，Ym 字 段 内 保存 寄存 郁 


编号 ， 根 据 不 同 mod 的 值 确定 该 寄存 器 是 寄存 器 操作 数 ， 还 是 需要 寻 址 
的 内 存 操作 数 。 如 表 5-7 所 示 。 


表 5-7 mod 字段 含义 


rm 寻 址 模式 


举 例 
00 [eax] 
01 寄存 融 基 址 +8 位 偏 移 [eax+4] 
10 | 寄存 器 基 址 +32 位 偏 移 [eax+0x12345] 
iT 寄存 器 操作 数 


eax 


当 mod=0b11 时 ，Ym 字 段 表示 寄存 部 操 作 数 ， 保 存 了 寄存 郁 的 编 
号 。 当 mod 取 其 他 值 时 ，rm 字 段 表 示 内 存 操作 数 ， 保 存 了 通过 寄存 内 
寻 址 的 寄存 响 编 号 。 其 中 mod=0b00 时 ， 表 示 寄 存 器 间 址 。mod=0b01 
时 ， 表 示 寄 存 嫩 基 址 +8 位 仿 移 的 内 存 寻 址 。mod=0b10 时 ， 表 示 寄 存 胡 
基 址 +32 位 偶 移 的 内 存 寻 址 。 


例如 0x8b 表 示 指 令 “mov r32，r/m32” 的 操作 码 ， 其 中 r32 对 应 reg 字 
段 ，vm32 对 应 rm 字段 。 由 此 指令 “mov ecx，eax” 的 编码 为 : 


8b c8 


其 中 ，0xc8 为 ModR/M 子 段 的 值 ， 表 示 为 二 进 制 形式 为 : 


11 001 000 


可 以 看 出 mod=0b11， 表 示 rm 字 段 为 寄存 器 操作 数 。reg=0b001， 
表示 mov 指 令 的 操作 数 r32=ecx。r/m=0b000， 表 示 mov 指 令 的 男 一 个 操 
作 数 r/m32=eax。 因 此 ， 二 进 制 编码 “8b c8” 表 达 了 汇编 指令 “mov ecx， 


eax” 的 完整 信息 。 


类 似 地 ， 指 令 “mov ecx，[eax]” 的 ModR/M 的 mod 字 上段 为 0b00， 表 示 
MVm 字 段 为 寄存 器 间 址 ， 其 他 字段 不 变 ， 指 令 编码 为 : 


8b 08 


而 对 于 指令 “mov ecx，[eax+4]” 的 ModR/M 的 mod 字 段 为 0b01， 表 
示 r/m 字 上 段 为 寄存 器 基 址 +8 位 偏 移 寻 址 。 其 他 字段 不 变 ， 但 是 需要 增加 
1 字 节 的 偏 移 字 段 0x04。 指令 编码 为 。 


8b 48 04 


类 似 地 ， 指 令 “mov ecx，[eax+0x12345678]” 的 ModR/M 的 mod 字 上 段 
为 0b10， 表 示 tw/m 字 上 段 为 寄存 器 基 址 +32 位 偏 移 寻 址 。 其 他 字段 不 变 ， 
但 是 需要 增加 4 字 市 的 偏 移 字 上 段 0x12345678。 指 令 编 码 为 : 


8b 88 78 56 34 12 


这 里 需要 注意 的 是 ， 对 于 指令 中 编码 的 偏 移 或 立即 数 ， 都 是 按照 
小 端 字 节 序 (Little Endian) 的 方式 存储 的 ， 即 高 字 节 数据 存储 在 高 地 
址 ， 低 字 节 数据 存储 在 低地 址 。 因 此 偏 移 “0x12345678” 存 储 形式 

为 “78563412”， 而 非 *12345678”。 


六 


l 


我 们 发 现 ， 以 上 讨论 的 mod 字 段 对 wm 字段 定义 的 通用 寻 址 模式 
中 ， 仅 包含 三 种 寻 址 模式 : 寄存 器 寻 址 (寄存 器 操作 数 ) 、 寄 存 器 间 
址 和 寄存 器 基 址 + 偏 移 的 寻 址 方式 。 除 此 之 外 ， 在 指令 系统 中 还 存在 立 
即 寻 址 〈 立 即 数 操 作 数 ) 、 直 接 寻 址 (直接 使 用 内 存 地 址 寻 址 ) 和 寄 
存 右 基 址 + 寄存 瑚 变 址 + 侦 移 的 寻 址 方式 。 


对 于 立即 寻 址 ，Itel x86 指 令 集 的 立即 数 一 般 都 是 硬 编码 在 指令 内 
部 ， 而 不 需要 ModR/M 字 段 指定 。 例 如 表 5-5 中 的 的 指令 “mov r32， 
imm32”， 其 操作 码 为 0xb8+reg， 因 此 对 于 指令 “mov ecx， 
0x12345678”， 其 中 reg 保 存 ecx 的 寄存 器 编号 0b001， 其 指令 编码 为 : 


b9 78 56 34 12 


对 于 直接 寻 址 ，Intel x86 指 令 集 规 定 ， 当 mod=0b00，r/m=0b101 
时 ， 表 示 32 位 直接 寻 址 模式 。 例 如 指令 “mov ecx，[0x12345678]”， 其 
指令 编码 为 : 


8b 0d 78 56 34 12 


在 表 5-6 中 ，0b101 是 寄存 右 ebp 的 编号 ， 由 于 该 编号 被 直接 寻 址 模 
式 占 用 ， 因 此 形 如 “mov r32，[ebp]” 的 指令 ， 必 须 转 化 为 “movr32， 
[ebp+0 了 ”进行 处 理 。 例 如 指令 “mov ecx，[ebp]”* 的 指令 编码 为 : 


8b 4d 00 


这 样 使 用 [ebp] 寻 址 的 指令 需要 额外 使 用 1 字 节 的 存储 。 


对 于 寄存 器 基 址 + 寄存 器 变 址 + 偏 移 的 寻 址 方式 ， 仅 使 用 ModR/VM 字 
段 无 法 表示 。Intel 指 令 集 规定 ， 当 mod! =0b11，rm=0b100 时 ， 表 示 引 


导 SIB 字 段 。 由 SIB 字 段 表示 ModR/M 字 段 无 法 表示 的 寻 址 模式 ， 而 mod 
定义 的 偏 移 信 息 仍 然 有 效 。 


类 似 地 ， 由 于 引导 SIB 字 段 占用 了 寄存 右 编 号 0b100， 对 应 寄存 器 
esp。 因 此 形 如 “movr32，[esp]”mov r32，[esp+disp8]”mov r32， 
[esp+disp32]” 的 指令 也 无 法 仅 使 用 ModR/M 字 上 段 表 示 。 


特殊 ModR/M 字 上 段 如 表 5-8 所 示 。 


表 5-8 特殊 ModR/M 字 段 


32 位 直接 寻 址 [0x12345] 
00 | 100 | 引导 SIB | [2 
和 | 100 | 引导 SIB+8 位 偏 移 | [2+4] 


引导 sSIB+32 位 偏 移 [?2+0x12345] 


5.1.4 SIB 字 段 


SIB 字 段 为 ModR/M 字 段 补 充 寻 址 模式 ， 如 图 5-3 所 示 ， 通 用 寻 址 模 
式 为 寄存 器 基 址 + 寄存 器 变 址 + 偏 移 的 寻 址 ， 当 然 也 解决 了 了 上述 由 于 寄 
存 需 编号 冲突 导致 的 部 分 指令 无 法 由 ModR/M 字 段 表 示 的 问题 。 


7 OO .3 3 2 0 


se] mex | pose 


图 5-3 ”SIB 字 上 段 


SIB 字 段 长 度 为 1 字 节 ， 其 中 0~2 位 为 base 字 段 、3~5 位 为 index 字 
段 、6~7 位 为 scale 字 段 。base 字 段 保 存 基 址 寄存 器 的 编号 ，index 字 段 保 
存 变 址 寄存 器 的 编号 ，scale 字 段 保 存 以 2 为 确 的 指数 ， 表 示 变 址 寄存 器 
的 因子 。 因 此 ，SIB 字 段 定 义 的 寻 址 模式 格式 为 : 


[base+index*2scale 


] 


例如 指令 “mov ecx，[eax+ebx]” 中 ， 内 存 操作 数 使 用 了 变 址 寄存 需 
ebx 〈 当 然 ， 也 可 以 将 eax 看 作 变 址 寄存 器 ) ， 因 此 必须 使 用 SIB 字 段 畏 
助 寻 址 。 指 令 编 码 为 : 


8b Oc 18 


其 中 0x0c 为 ModR/M 字 段 ， 二 进 制 编码 为 00001100。mod=0b00 表 
示 指 令 不 存在 偏 移 ，reg=0b001 表 示 控 作 数 ecx，r/m=0b100 表 示 3 引 导 SIB 


字段 。 


0x18 为 SIB 字 段 ， 二 进 制 编码 为 00011000。scale=0b00 表 示 变 址 寄 
存 器 因子 为 20=1，index=0b011 表 示 变 址 寄存 器 ebx，scale=0b000 表 示 基 
址 寄存 器 eax。 因 此 ， 使 用 ModR/M 和 SIB 字 上 段 完 整 表达 了 指令 的 功能 。 


类 似 地 ， 对 于 指令 “mov ecx，[eax+ebx*8+0x12345678]”*"， 指 令 编 
码 为 : 


8b 8c d8 78 56 34 12 


其 中 ModR/M 的 字段 mod=0b10 表 示 指 令 中 存在 32 位 偏 黎 ， 而 SIB 的 
字段 scale=0b11， 表 示 变 址 寄存 絮 因 子 为 23=8，32 位 偏 移 仍 按照 小 端 字 
节 顺 序 的 方式 存储 。 


SIB 寻 址 模式 见 表 5-9。 


表 5-9 ”SIB 寻 址 模式 


scale 寻 址 模式 举 例 
00 | [base+index] | [eaxt+ebx] 
01 | [baset+tindex*2] | [eax+ebxr*21] 
10 | [basetindex*4] | [eaxt+ebx*4] 


有 [baset+index*8] [eaxt+ebx*8] 


前 面 讨 论 了 SIB 了 字段 的 通用 寻 址 模式 ， 但 是 当 “ 基 址 + 变 址 + 偏 移 ” 的 
寻 址 方式 中 不 存在 基 址 寄存 器 或 变 址 寄存 器 时 ，SIB 需 要 进行 特殊 处 
理 。 


Intel 指 令 集 规 定 ， 当 SIB 的 字段 index=0b100 时 ， 不 存在 变 址 寄存 
研 。 这 样 SIB 的 村 址 模式 被 向 化 为 "[base]" 形 式 ， 而 使 用 ModR/M 字 段 则 
可 以 完全 表达 该 种 的 寻 址 模式 。 因 此 ， 不 存在 变 址 寄存 器 的 寻 址 模式 
可 以 有 两 种 不 同 的 表达 形式 ， 例 如 指令 “mov ecx，[eax]” 的 指令 编码 有 
数 种 : 


8b Qc 20 ( 
3) 
8b Qc 60 ( 
4) 
8b Oc a0 ( 
5) 


8b 0c eg0 


第 一 种 编码 方式 是 仅 使 用 ModR/M 字 段 的 情况 ， 后 四 种 编码 方式 是 
使 用 ModR/M 和 SIB 字 段 的 情况 。 使 用 SIB 编 码 的 情况 中 ， 必 须 设 定 
index=0b100 表 示 不 存在 变 址 寄存 器 ， 而 scale 字 段 可 以 取 任 意 值 0b00、 
0b01、0b10、0b11，base 字 段 必须 设置 为 0b000， 表 示 基 址 寄存 器 eax 。 


之 所 以 定义 不 存在 变 址 寄存 如 的 寻 址 模式 ， 是 为 了 表达 在 ModR/M 
字段 的 讨论 中 ， 由 于 寄存 器 编号 冲突 而 无 法 表示 的 部 分 指令 。 例 如 指 
令 “mov ecx，[esp]” 的 二 进 制 编码 为 : 


8b Oc 24 


其 中 SIB 字 段 的 base=0b100 表 示 基 址 寄存 器 esp，index=0b100 表 示 
不 存在 变 址 寄存 器 ，scale 可 以 取 任 意 值 ， 这 里 取 值 为 0b00。 


使 用 index=0b100 表 示 不 存在 变 址 寄存 器 ， 导 致 一 个 很 明显 的 结 
esp 寄 存 器 不 能 作为 变 址 寄存 右 。 事 实 确 是 如 此 ，Ptel 汇 编 语 法 中 
不 允许 esp 寄 存 器 作为 变 址 寄存 器 。 例 如 指令 “mov ecx，[eax+esp*8]” 不 


是 合法 的 指令 。 


接 下 来 讨论 不 存在 基 址 寄存 器 的 情况 ，Intel 指 令 集 规定 ， 当 
ModR/M 的 字段 mod=0b00，SIB 的 字段 base=0b101 时 ， 不 存在 基 址 寄存 
器 ， 日 寻 址 格式 为 : 


[index*2scale 


+disp32] 


这 里 需要 注意 的 是 ， 不 存在 基 址 寄存 器 时 ， 寻 址 模式 中 “强制 ” 包 
舍 了 32 位 的 偶 移 。 这 是 因为 该 寻 址 模式 下 ，ModR/M 的 字段 mod=0b00 


并 未 指定 指令 包含 偏 黎 ， 因 此 这 里 将 偏 移 字 段 补充 进来 。 例 如 指 
令 “mov ecx，[eax*8+0x12345678]” 的 编码 为 : 


8b Oc c5 78 56 34 12 


其 中 ，SIB 字 段 为 0xc5，base=0b101 表 示 无 基 址 寄存 器 ， 但 是 必须 
有 32 位 偏 黎 ，index=0b000 表 示 变 址 寄存 器 为 eax，scale=0b11 表 示 变 址 
寄存 器 因子 为 23 =8。 


无 基 址 寄存 如 的 寻 址 模式 也 有 一 定 的 问题 ， 例 如 当 指 令 中 不 存在 
侦 移 时 ， 指 令 “mov ecx，[eax*8]”， 必 须 按照 形式 “mov ecx， 


[eax*8+0x00000000]” 进 行 处 理 ， 指 令 编 码 为 : 


8b Oc c5 00 00 00 O00 


这 样 仅 有 变 址 寄存 右 的 寻 址 模式 的 指令 编码 必须 额外 使 用 4 子 太 的 
存储 。 


无 基 址 寄存 器 寻 址 模式 要 求 SIB 的 字段 base=0b101， 这 和 ebp 的 寄存 
器 编号 冲突 。 这 样 在 mod=0b00 时 ，ebp 是 无 法 作为 基 址 寄存 器 的 。 但 
是 ， 当 mod=0b01 或 0b10 时 ，ebp 仍 可 以 作为 正常 的 基 址 寄存 右 使 用 。 例 
如 指令 “mov ecx，[ebp+eax*8+4]” 的 指令 编码 为 : 


8b 4c c5 04 


其 中 ModR/M 的 字段 mod=0b01 表 示 指 令 保存 8 位 偏 移 ，SIB 的 字段 
base=0b101 表 示 基 址 寄存 器 ebp，index=0b000 表 示 变 址 寄存 器 eax， 
scale=0b11 表 示 变 址 寄存 器 因子 23 =8 。 


而 对 于 指令 “mov ecx，[ebp+eax*8]”， 虽 然 不 存在 偏 移 ， 但 是 需要 
按照 “mov ecx，[ebp+eax*8+0]” 的 形式 进行 处 理 ， 指 令 编码 为 : 


8b 4c c5 00 


这 样 使 用 [ebp+index*2sealke ] 寻 址 的 指令 需要 额外 使 用 1 字 节 的 存 
储 。 


5.1.5” 偏 移 


32 位 Intel 指 令 中 的 偏 移 分 为 两 类 : 8 位 偏 移 和 32 位 偏 移 。 偏 移 配 合 
ModR/M 和 SIB 字 上段 进 行内 存 寻 址 ， 而 不 作为 单独 的 字段 出 现在 指令 
中 。 使 用 偏 移 进 行 寻 址 的 方式 包括 : 32 位 直接 寻 址 、 基 址 +8 位 偏 移 寻 
址 、 基 址 +32 位 偏 移 寻 址 、 基 址 + 变 址 +8 位 偏 移 寻 址 、 基 址 + 变 址 +32 位 
偏 移 寻 址 和 变 址 +32 位 偏 移 寻 址 ， 见 表 5-10 。 


表 5-10 ”使 用 偏 移 的 寻 址 模式 


偏 移 寻 址 模式 举 例 


址 二 依 i 
g 位 偏 移 基 址 + 偏 移 [eax+4] 


基 址 + 变 址 + 偏 移 [eaxtebx*8+4] 


立即 寻 址 [Ox12345] 


32 位 偏 移 基 址 + 偏 移 [eax+0x123451] 


基 址 + 变 址 + 偏 移 [eaxt+ebx*8+0x12345] 


变 址 + 偏 移 [ebx*8+0x12345] 


对 于 8 位 偏 移 ， 一 般 由 ModR/M 的 mod 字 段 指 定 ，mod=0b01 时 ， 表 
示 指 令 使 用 8 位 偶 移 。 对 于 32 位 侦 移 ， 也 十 由 ModR/M 的 mod 字 段 指 
定 ，mod=0b10 时 ， 表 示 指 令 使 用 32 位 偏 移 。 另 外 需要 注意 的 是 ， 当 
ModR/M 的 mod=0b00 且 wm=0b101 时 ， 表 示 指 令 使 用 32 位 偏 移 进行 直接 
寻 址 。 而 当 ModR/M 的 mod=0b00 且 SIB 的 base=0b101 时 ， 表 示 指 令 使 用 
变 址 +32 位 偏 移 的 寻 址 方式 。 


偏 移 在 指令 中 如 果 存 在 ， 则 紧 跟 ModR/M、SIB 字 上 段 之 后 ， 且 按照 
小 端子 市 序 的 方式 进行 存储 。 


5.1.6 ”立即 数 


32 位 Intel 指 令 中 的 立即 数 分 为 三 类 : 8 位 立即 数 、16 位 立即 数 和 32 
位 立即 数 。 不 同 长 度 的 立即 数 操作 数 ， 操 作 码 也 不 相同 。 例 如 指 
令 “mov r8/16/32，imm8/16/32” 的 操作 码 见 表 5-11 。 


表 5-11 不 同 长 度 立 即 数 的 mov 指 令 操 作 码 


立即 数 肯 令 前 组 操作 码 (0x) 举例 

8 位 | 无 | b0+reg | mov C1, 0X12 

16 位 | 0x66 | b8+reg | mov cx,0x1234 

32 位 无 b8+reg mov ecx, 0x12345678 


对 于 指令 “mov r8，imm8”， 指 令 的 操作 码 为 0xb0 加 上 ModR/M 的 
reg 字 段 。 例 如 指令 “mov dl，0x12”， 指 令 编码 为 <b112”。 


对 于 指令 “mov r32，imm32”， 指 令 的 操作 码 为 0xb8 加 上 ModR/M 的 
reg 字 段 。 例 如 指令 “mov ecx，0x12345678”， 指 令 编 码 
为 “b978563412”。 


对 于 指令 “mov r16，imm16”， 指 令 的 操作 码 和 32 位 立即 数 指 令 相 
同 ， 但 是 在 32 位 汇编 语言 环境 下 ， 需 要 添加 操作 数 大 小 重 写 前 级 
0x66。 例 如 指令 “mov ax，0x1234”， 指 令 编 码 为 “66 b93412”。 


立即 数 在 指令 中 如 果 存 在 ， 则 紧 跟 ModR/M、SIB、 偏 移 字 上 段 之 
后 ， 且 按照 小 端 字 世 序 的 方式 进行 存储 。 


5.1.7 AT&T 汇编 格式 


x86 汇 编 语 法 有 两 种 常见 的 格式 : Intel 汇 编 语 法 和 AT&T 汇 编 语 
法 。Intel 汇 编 语法 常见 于 Intel 冒 方 文档 和 Windows 平 台 ， 而 AT&T 汇 编 
语法 在 Unix 平 台 更 为 常见 。 一 般 使 用 NASM 汇 编 Intel 格 式 的 汇编 程序 ， 
而 使 用 as 汇编 AT&T 格 式 的 汇编 程序 。 


一 般 的 汇编 教材 中 ， 大 多 数 使 用 Intel 汇 编 语法 ， 因 此 我 们 对 Intel 汇 
编 语 法 更 为 熟悉 ， 包 括 本 书 描述 的 汇编 大 都 是 该 格式 。 但 是 在 Linux 环 
境 中 ， 无 论 是 反 汇 编 工 具 objdump， 还 是 GNU C 语 言 的 能 入 式 汇编 ， 经 
第 使 用 AT&T 汇 编 格 式 。 因 此 ， 我 们 有 必要 说 明 AT&T 汇 编 语法 的 格 
式 。 通 过 对 Intel 汇 编 语 法 与 AT&T 汇 编 语 法 的 比较 ， 见 表 5-12， 可 以 很 
容易 理解 它们 的 区 别 。 


表 5-12 ”操作 数 基 本 形式 


Intel 汇编 语法 AT&T 汇编 语法 
寄存 器 | eax | eax 
立即 数 0x1234 $0x1234 

操作 数 方向 . 3 mov $1,%eax 


我 们 首先 从 汇编 指令 格式 说 明 两 种 和 汇编 语法 的 区 别 。 


AT&T 沪 . 编 的 寄存 器 操作 数 前 需要 添加 前 级 “%”， 江 即 数 操作 数 需 
要 添加 前 级 “$”。 两 种 汇编 最 大 的 不 同 是 操作 数位 置 相 反 ，Intel 汇 编 指 


令 形 式 为 “ 助 记得 目的 操作 数 ， 源 操作 数 "， 而 AT&T 让 编 指令 形式 
为 “ 助 记 符 产 操作 数 ， 目 的 操作 数 ”。 


对 于 内 存 操 作 数 ， 其 一 般 的 Intel 汇 编 形 式 为 “section: 
[base+index*scale+disp]”， 而 AT&T 汇 编 形式 为 “%section: disp 


(%base, Windex, scale) ”。 


AIT&T 谍 编 经 闻 涉及 的 内 存 操作 数 形式 如 表 5-13 所 示 。 对 于 内 存 操 
作 数 ， 段 寄存 疹 section、 基 址 寄存 套 base、 变 址 寄存 天 index、 变 址 寄存 
器 因子 scale、 偏 移 dqisp 都 是 可 选 的 。 当 不 存在 基 址 寄存 器 base 时 ， 仍 需 
要 保留 逗号 分 隔 符 。 当 不 存在 偶 移 disp 时 ， 和 于 认为 1。 当 仅 有 仿 移 qisp 
时 ， 表 示 直 接 寻 址 操作 数 ，Intel 并 编 使 用 “[]” 将 内 存 地 址 包含 起 来 ， 而 
AT&T 和 直接 使 用 内 存 地 址 进行 访问 。 


表 5-13 内存 操 作 数 


Intel 汇编 语法 AT&T 汇编 语法 
[0x1234] 0x1234 
[eax] (%eax) 
[eax*8] (, %eax, 8) 


Intel 汇编 语法 


AT&T 汇编 语法 


[eax+0xl1234] 


0x1234 (%eax) 


[eaX+ecX] 


[eaxtecx*8] 


(Weax, Wecx) 


(Weax, Wecx, 3) 


[ecx*8+0x1234] 


[eax+ecx*8+0xl1234] 


0x1234 (,%ecx, 8) 


0x1234 (Weax, %ecx, 8) 


ds: [eaxtecx*8+0xl1234] 


%ds:0x1234 (%eax, %ecx, 8) 


由 于 内 存 操作 数 都 古 通 过 寻 址 的 方式 进行 访问 的 ， 操 作 数 的 大 小 
一 般 可 以 通过 源 寄 存 器 或 目的 寄存 器 的 大 小 目 动 推 煌 。 当 内 存 操作 数 
大 小 无 法 自动 推断 时 〈 比 如 操作 数 中 不 存在 寄存 器 时 ) ， 必 须 显示 指 
定 操作 数 的 大 小 ， 见 表 5-14。 


表 5-14 内存 操作 数 大 小 


Intel 汇编 语法 AT&T 汇编 语法 


mov byte ptr [eax],1 | movb $1, (%eax) 


mov word ptr [eax],l movw $1, (%eax) 


mov dword ptr [eax],l1 movl] $1, (%eax) 


Intel 汇 编 使 用 “byte/word/dword ptr”* 前 级 修饰 内 存 操 作 数 ， 表 示 操 
作 数 的 大 小 是 1、2、4 字 广 。 而 AT&T 则 是 通过 在 操作 人 码 后 添加 后 
级 “b/w/1* 进 行 表 示 ， 分 别 对 应 单词 “byte/word/long”。 


一 般 情况 下 ， 内 存 操作 数 被 作为 数据 对 待 ， 但 是 内 存 操作 数 被 作 
为 地 址 对 竺 时， 情况 比较 特殊 ， 特 殊 内 存 操作 数 见 表 5-15。 


表 5-15 “特殊 内 存 操 作 数 


Intel 汇编 语法 AT&T 汇编 语法 
jmp dword ptr [0x1234] | jmp *Oxl1234 
call dword ptr [eax] | call *(%Seax) 
jne dword ptr [eax+4] jne *4(%Seax) 


当 内 存 操 作 数 作为 跳 转 类 指令 (call、jmp、Jcc 等 ) 的 目标 地 址 
时 ， 需 要 使 用 前 缀 “*” 修 饰 内 存 操作 数 。 例 如 指令 “jmp 0x1234” 表 示 跳 


转 到 地 址 0x1234 处 执行 ， 而 指令 *jmp*0x1234” 表 示 将 地 址 0x1234 处 的 
内 存 数 据 取出 ， 作 为 跳 转 地 址 。 


接 下 来 讨论 两 种 汇编 数据 定义 格式 的 区 别 ， 见 表 5-16。 


表 5-16 数据 定义 


Intel 汇编 语法 AT&T 汇编 语法 
Ch dy ta” | Sch: sbyte a” 
x dw 0x1234 | x sasWord Dxl234 
Var dd 0x12345678 | Var: .long 0x12345678 


( 续 ) 


Intel 汇编 语法 AT&T 汇编 语法 
array times 255 dd 0 | arrays sfill 2Z99740 
str db. "hello",0 | Str: .ascii "hello\000" 


EE vd EF Bt »long ste 


Intel 汇 编 使 用 “db/dw/dd” 定 义 数据 的 长 度 ， 而 AT&T 使 
用 “.byte/.word/.long” 定 义 数 据 长 度 。Intel 汇 编 使 用 “times” 定 义 一 块 连续 
内 存 ， 而 AT&T 使 用 “.fi* 定 义 连 续 内 存 。Intel 沪 编 使 用 db 后 紧 跟 去 号 分 
阳 的 常量 列表 定义 字符 串 ， 而 AT&T 使 用 .ascii 定 义 字 符 串 。 


除了 以 上 所 介绍 的 ， 两 种 汇编 格式 对 应 的 汇编 器 执行 指令 也 不 
同 。Intel 汇 编程 序 使 用 nasm 命 令 将 汇编 代码 汇编 为 目标 文件 ， 命 令 格 
式 为 (filename.s 为 文件 名 ) : 


nasm -f elf filename.s 


而 AT&T 让 编程 序 使 用 as 将 汇编 代码 汇编 为 目标 文件 。 


天 


as filename.s - 


o filename.o 


一 


5.2 ELEF 文 件 


目前 主流 的 可 执行 文件 格式 有 两 种 ，Windows 平 台 下 的 PE 文件 格 
式 和 Linux 平 台 下 的 ELF 文 件 格式 。 在 Linux 平 台 下 ， 除 了 可 执行 文件 
(Executable File) ， 可 重 定位 目标 文件 (Relocatable Object File) 、 
共享 目标 文件 (Shared Object File) 、 核 心 转 储 文件 (Core Dump 
File) 也 都 是 ELF 格 式 的 文件 。 


在 我 们 设计 的 编译 系统 中 ， 汇 编 器 生成 的 目标 文件 是 ELF 格 式 的 
可 重 定位 目标 文件 ， 链 接 右 生成 的 是 ELF 格 式 的 可 执行 文件 。 因 此 ， 
详细 了 解 ELF 文 件 格式 的 细 方 ， 对 构造 让 编 占 和 链接 絮 至 关 重 要 。 


G32* 程 序 头 表 项 个 数 ) 


bss 段 (、bss ) 0 


段 表 字符 串 表 (. shstrtab ) 


段 表 ( Section Header Table ) (40* 段 表 项 个 数 ) 


(16* 符 号 表 项 个 数 ) 
(8* 重 定位 表 项 个 数 ) 
(8* 重 定位 表 项 个 数 ) 


图 5-4 ELF 文件 结构 


图 5-4 描 述 了 ELF 文 件 常见 的 结构 (图 中 N 表 示 表 项 的 个 数 ) 。 在 
ELF 文 件 中 ， 保 存 的 最 关键 的 信息 是 程序 中 的 代码 和 数据 。 一 般 的 ， 
程序 的 代码 以 二 进 制 指令 的 形式 保存 在 代码 段 (.text) 中 ， 程 序 的 数 
据 以 二 进 制 的 形式 保存 在 数据 段 〈.data) 或 “.bss” 段 中 。ELF 文 件 的 其 
他 结构 ， 一 般 用 于 对 ELF 文 件 内 容 进 行 管理 ， 为 链接 郁 、 加 载 秦 、 调 


试 器 、 操 作 系 统 等 提供 必要 的 信息 。 


在 Linux 系 统 的 “usrwinclude/elf.h” 头 文件 中 ， 定 义 了 ELF 文 件 涉及 
的 所 有 数据 结构 。 根 据 ELF 文 件数 据 结构 展开 讨论 ELEF 文 件 格式 ， 更 
容易 帮助 我 们 把 握 ELF 文 件 结构 的 细节 。 


后 续 对 ELF 文 件 结构 补充 说 明 的 实例 中 ， 使 用 的 可 重 定位 目标 文 
件 file.o 和 可 执行 文件 名 e 由 第 1 章 示例 中 helloworld 程 序 的 源 代 码 编译 生 
成 o 


5.2.1 文件 头 


ELE 文 件 头 描述 了 文件 格式 、 平 台 环 境 以 及 文件 结构 等 信息 ， 其 
数据 结构 定义 为 : 


1 typedef uint16 _t Elf32_ Half,; // 半 字 ， 

2 等 节 

2 typedef uint32 t Elf32 Word,; // 字 ， 

4 字 节 

3 typedef uint32 t Elf32_Addr,; / /地址 ， 

4 字 节 

4 typedef uint32_t Elf32_0Off; / / 偏 移 ， 

4 字 节 

5 #define EI_NIDENT (16) // 魔 数 长 度 


6 typedef struct{ 
7 


unsigned char e_ident[EI_NIDENT]; // 魔 数 

Elf32_Half e_type; / /文件 
9 Elf32_Half e_machine; // 机 器 类 型 
10 Elf32_Word e_version,; / /版 本 号 
11 Elf32_Addr e_entry; / /程序 入 口 点 
12 Elf32_Off e_phoff,; / /程序 头 表 文件 偏 移 
13 Elf32_0Off e_shoff; // 段 表 文 件 偏 移 
14 Elf32_ Word e_flags; / /平台 相关 标记 


15 Elf32_Half e_ehsize; / /文件 头 大 小 
16 Elf32_Half e_phentsize; / /程序 头 表 
项 大 小 

17 Elf32_Half e_phnum; / /程序 头 表 项 个 数 
18 Elf32_Half e_shentsize; / /上段 表 项 大 
小 

19 Elf32_Half e_shnum; // 段 表 项 个 数 

20 Elf32_Half e_shstrndx; // 段 表 字符 
串 表 的 段 表 索引 


21 } Elf32_Ehdr; 


/ /文件 头 


第 1~4 行 描述 了 ELEF 文 件数 据 结构 常用 的 数据 类 型 ， 第 5 行 定义 了 
ELF 文 件 头 魔 数 字段 的 长 度 ， 结 构 体 Elf32_Fhdr 撒 述 了 ELF 文 件 头 数据 
结构 。ELF 文 件 头 的 每 个 字段 的 含义 如 下 。 


1) e_ident 称 为 ELF 文 件 的 魔 数 ， 是 16 字 节 长 的 数组 ， 用 于 标识 
ELF 文 件 格 式 、 数 据 存 储 的 字 节 序 、ELF 版 本 等 信息 。 常 见 的 初始 值 


71 45 4c 46 


01 01 01 00 00 00 00 00 00 00 00 00 


其 中 前 4 字 贡 为 DEL 控制 字符 和 字符 “E”、“”、“E" 对 应 的 ASCLL 
码 ， 对 于 任意 ELF 文 件 ， 这 4 字 节 的 值 是 固定 的 。 第 5 字 节 表示 文件 类 


别 ，0 表 示 无 效 文件 、1 表 示 32 位 ELF 文 件 、2 表 示 64 位 ELF 文 件 ， 我 们 
只 使 用 32 位 ELF 文 件 ， 取 值 ELFCLASS32。 第 6 字 节 表示 字 节 序 ，0 表 
示 无 效 格式 、1 表 示 小 端 字 忆 序 、2 表 示 大 端 字 和 序 ， 我 们 使 用 小 端 字 
节 序 ， 取 值 ELFDATIA2LSB。 第 7 字 节 表示 ELEF 版 本 ， 默 认为 1， 取 值 
EV_CURRENT， 表 示 当 前 版 本 号 。 后 面 的 9 字 市 在 ELF 标 准 中 未 定 
义 ， 一 般 用 于 平台 相关 的 扩展 标志 。 在 Linux 系 统 中 ， 第 8 字 节 取 值 
ELFOSABI NONE=0， 表 示 UNIX 系 统 ， 第 9 字 节 取 值 0， 表 示 系 统 ABI 


(Application Binary Interface) 版 本 为 0。 其 他 字 世 默认 为 0。 


2) e_type 表 示 ELF 文 件 类 型 ，0 表 示 无 效 文件 类 型 、1 表 示 可 重 定 
位 目标 文件 、2 表 示 可 执行 文件 、3 表 示 共 享 目标 文件 、4 表 示 核 心 转 储 
文件 。 我 们 设计 的 汇编 器 输出 可 重 定位 目标 文件 ， 该 字段 取 值 为 
ET_REL 。 静 态 链 接 侣 输出 可 执行 文件 ， 该 字段 取 值 为 ET_EXEC 。 


3) e_machine 表 示 ELF 所 在 的 机 器 类 型 ， 例 如 3 表示 Intel 80386 体 
系 结构 、40 表 示 Arm 体 系 结 构 。 我 们 生成 x86 平 台 的 ELF 文 件 ， 该 字段 
取 值 为 EM _386。 


4) e_version 表 示 ELF 文 件 的 版 本 ， 一 般 取 值 1， 即 
EV_CURRENT ?+ 


5) e_entry 表 示 ELEF 文 件 程序 的 入 口 线性 地 址 ， 一 般 用 于 ELF 可 执 
行文 件 。 对 于 可 重 定位 目标 文件 ， 该 字段 设置 为 0。 


6) e_phoff 表 示 程 序 头 表 在 ELEF 文 件 内 的 偏 移 地 址 ， 标 识 了 程序 头 
表 在 文件 内 的 位 置 。 


7) e_shoff 表 示 段 表 在 ELF 文 件 内 的 偏 移 地址 ， 标 识 了 上段 表 在 文件 
内 的 位 置 。 


8) e_flags 表 示 ELF 文 件 平台 相关 的 属性 ， 一 般 默 认为 0。 


9) e_ehsize 表 示 ELF 文 件 头 的 大 小 ， 即 sizeof (Elf32_Ehdr) =52 字 


节 。 


10) e_phentsize 表 示 程 序 头 表 项 的 大 小 ， 即 sizeof (Elf32_Phdr) 


=32 字 节 。 


11) e_phnum 表 示 程 序 头 表 项 的 个 数 ， 因 此 可 以 确定 程序 头 表 在 
ELF 文 件 偏 移 e_phoff 到 e_phoff+e_phentsizexe_phnum 的 数据 块 中 。 


12) e_shentsize 表 示 段 表 项 的 大 小 ， 即 sizeof (Elf32_Shdr) =40 字 


节 。 


13) e_shnum 表 示 上 段 表 项 的 个 数 ， 因 此 可 以 确定 段 表 在 ELF 文 件 偏 
移 e_shoff 到 e_shofft+e_shentsizexe_ shnum 的 数据 块 中 。 


14) e_shstrmdx 表 示 段 表 字 符 串 表 所 在 段 在 段 表 中 的 索引 。 这 个 字 
段 的 舍 义 比较 复杂 ， 稍 后 会 作 详细 解释 。 


使 用 命令 “readelf-h file.o" 可 以 查看 ELE 文 件 头 的 完整 信息 。 


ELF Header: 

Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 

Class: ELF32 

Data: 2's complement, little 
endian 

Version: 1 (current) 

OS/ABI: UNIX - System V 

ABI Version: 0 

Type: REL (Relocatable file) 

Machine: Intel 80386 

Version: Ox1 

Entry point address: Ox0 

Start of program headers: 9 (bytes into file) 

Start of section headers: 224 (bytes into file) 

Flags: Ox0 

Size of this header: 52 (bytes) 

Size of program headers: 9 (bytes) 

Number of program headers: 0 

Size of section headers: 40 (bytes) 

Number of section headers: 11 

Section header string table index: 8 


从 输出 信息 中 可 以 看 出 ， 该 文件 为 可 重 定 位 目标 文件 ， 程 序 入 口 
点 为 0° 程序 头 表 文 件 偏 移 为 0， 程 序 头 表 项 大 小 为 0， 程 序 头 表 项 的 个 
数 为 0， 因 此 不 存在 程序 头 表 。 段 表 文 件 侦 移 为 224 字 节 ， 段 表 项 大 小 
为 40 字 方 ， 段 表 项 个 数 为 11 个 ， 因 此 文件 224 字 届 到 224+11*40=664 处 
保存 了 段 表 的 内 容 。 


通过 ELF 文 件 头 ， 可 以 访问 到 ELF 内 两 个 最 关键 的 数据 结构 : 段 
表 (Section Header Table) 和 程序 头 表 (Program Header Table) 。 


5.2.2 ”有 段 表 


ELF 文 件 内 的 数据 结构 ， 除 了 上 段 表 和 程序 头 表 之 外 ， 其 他 都 是 以 


段 (Section) 的 方式 进行 组 织 的 。 上 段 表 包含 了 多 个 段 表 项 ， 


段 表 项 记 


录 了 每 个 段 的 相关 信息 ， 比 如 有 段 的 名 称 、 位 置 、 大 小 、 属 性 等 信息 。 


段 表 项 的 数据 结构 定义 为 : 


typedef struct{ 


Elf32_Word sh_name; 
Elf32_Word sh_type; 
Elf32_Word sh_flags; 
Elf32_Addr sh_addr; 
Elf32_0Off sh_offset,; 
Elf32_Word sh_size; 
Elf32_Word sh_link; 

于 
Elf32_Word sh_info; 

2 
Elf32_Word sh_addralign,; 
Elf32_Word sh_entsize,; 


} ELf32_Shdr 


// 段 表 项 


// 段 名 


// 段 类 型 


// 段 标志 


// 段 虚拟 基 址 


// 段 文件 


// 段 大 小 


// 段 链接 


扁 移 


信息 


百 心 、 


// 段 链接 信息 


// 段 对 齐 方 式 


// 表 项 大 小 


结构 体 Elf32_Shdr 摘 述 了 ELF 文 件 段 表 项 的 数据 结构 ， 其 每 个 字段 
的 含义 如 下 。 


1) sh_name 是 一 个 4 字 节 偏 移 量 ， 记 录 了 段 名 字符 串 在 段 表 字符 
串 表 内 的 偏 移 。 段 表 字 符 串 表 并 非 表 的 形式 ， 而 是 一 个 文件 块 ， 保 存 
了 所 有 的 段 表 字 符 串 内 容 ， 存 储 在 名 为 “.shstrtab” 的 段 中 。 根 
据 “.shstrtab" 段 的 偏 移 ， 加 上 sh_name 便 可 以 访问 到 每 个 段 对 应 的 段 和 名 
字符 串 ， 因 此 欲 解析 段 名 必须 访问 “.shstrtab” 段 。 然 而 ，“.shstrtab” 段 的 
言 息 也 是 以 段 表 项 存储 在 段 表 内 的 ， 欲 访问 “.shstrtab” 段 必须 先 访问 段 
表 。 这 样 ， 问 题 好 像 陷 入 了 一 个 段 表 、“.shstrtab” 段 、 段 表 的 “ 死 循 
环 ” 中 ， 而 ELF 文 件 头 的 e-shstrmndx 字 段 的 意义 在 此 便 体 现 出 来 。e- 
shstrmdx 字 段 记录 段 表 字符 串 表 所 在 的 “.shstrtab” 段 对 应 的 段 表 项 在 段 
表 内 的 索引 ， 根 据 该 索引 ， 可 以 定位 到 *“.shstrtab” 段 表 项 的 位 置 ， 计 算 
公式 为 e_shoff+sh_entsize*e-shstrndx， 其 中 sh_entsize 为 段 表 项 的 大 
小 。 然 后 根据 该 段 表 项 取出 “.shstrtab” 段 的 偏 移 量 sh-off set， 读 
出 “.shstrtab” 段 的 内 容 ， 再 根据 每 个 段 的 sh_name 访 问 段 名 字符 串 的 内 


2) sh_type 表 示 段 的 类 型 。 其 中 1 表示 程序 段 ， 取 值 
SHT_PROGBITS， 比 如 代码 段 “text”、 数 据 段 <.data" 等 。2 表 示 符 号 表 
段 ， 取 值 SHT_SYMTAB， 如 符号 表 段 “.symtab”。3 表 示 串 表 段 ， 取 值 
SHT_STRTAB， 如 段 表 字 符 串 表 段 “.shstrtab” 和 串 表 段 “.strtab”。8 表 示 


无 内 容 段 ， 取 值 SHT_NOBITS， 比 如 “.bss” 段 。9 表 示 重 定位 表 段 ， 取 
值 SHT_REL， 比 如 重 定位 表 段 “.reltext>” 和 “rel.data” 等 。 


3) sh_flags 为 段 标志 ， 记 录 段 的 属性 。 其 中 0 表示 默认 属性 。1 表 
示 段 可 写 ， 取 值 SHF_WRITE。2 表 示 段 加 载 后 需要 为 之 分 配 内 存 空 
间 ， 取 值 SHF_ALLOC 。4 表 示 段 可 以 执行 ， 取 值 SHF_EXECINSTR 。 
段 标 志 属 性 可 以 进行 复合 ， 比 如 代码 段 “.text* 属 性 为 可 分 配 、 可 执 
行 、 不 可 写 ， 因 此 其 段 属性 为 SHF_ALLOC|SHF_EXECINSTR。 而 数 
据 段 “.data” 或 “.bss” 段 属性 为 可 分 配 、 可 写 、 不 可 执行 ， 因 此 其 段 属性 
为 SHF_ALLOCISHF_WRITE。 对 于 一 般 的 段 ， 如 有 果 需 要 分 配 内 存 则 取 
值 SHF_ALLOC， 如 有 果 不 需要 分 配 内 存 则 取 默 认 值 0 即 可 。 


4) sh_addr 表 示 段 加 载 后 的 线性 地 址 。 在 可 重 定位 目标 文件 内 ， 
无 法 确定 段 的 虚拟 地 址 ， 故 设 为 默认 值 0。 在 可 执行 文件 内 ， 链 接 器 会 
计算 出 需要 加 载 的 段 的 线性 地 址 。 


5) sh_offset 表 示 段 在 文件 内 的 偏 黎 ， 根 据 此 偏 移 可 以 确定 段 的 位 
置 ， 读 取 段 的 内 容 。 


6) sh_size 表 示 段 的 大 小 ， 单 位 为 字 节 。 需 要 注意 的 是 ， 如 果 段 类 
型 为 SHT_NOBITS， 段 内 是 没有 数据 的 ， 那 么 段 大 小 并 非 指 文件 块 的 
大 小 ， 而 是 指 段 加 载 后 占用 内 存 的 大 小 。 


7) sh_link 和 sh_info 表 示 段 的 链接 信息 ， 一 般 用 于 描述 符号 表 段 和 
重 定位 表 段 的 链接 信息 。 对 于 符号 表 段 ( 段 类 型 为 SHT_SYMTAB) ， 
sh_link 记 录 符 号 表 使 用 的 串 表 所 在 段 (一 般 是 “.strtab”) 对 应 段 表 项 在 
段 表 内 的 索引 。 就 像 段 表 项 的 sh_name 记 录 段 名 字符 串 在 段 表 字 符 串 
表 所 在 段 “.shstrtab” 的 偏 移 一 样 ， 符 号 表 项 的 st_name 记 录 符 号 名 字符 
串 在 字符 串 表 所 在 段 “.strtab” 的 偏 黎 ， 而 sh_info 记 录 符 号 表 内 最 后 一 个 
局 部 符号 的 符号 表 项 在 符号 表 内 的 索引 +1， 一 般 恰好 是 第 一 个 全 局 符 
号 的 符号 表 项 的 索引 ， 这 可 以 帮助 链接 器 更 快 地 定位 到 第 一 个 全 局 符 
号 。 对 于 重 定位 表 段 〈 段 类 型 为 SHT_REL) ，sh_link 记 录 重 定位 表 使 
用 的 符号 表 段 (一 般 是 “.symtab”) 对 应 段 表 项 在 段 表 内 的 索引 ， 而 
sh_info 记 录 重 定位 所 作用 的 段 对 应 的 段 表 项 在 段 表 内 的 索引 。 一 般 
的 ， 重 定位 表 段 “.rel.text* 作 用 于 代码 段 “.text”,，“.rel.data” 作 用 于 数据 
段 “.data”。 对 于 其 他 类 型 的 段 ， 如 无 特殊 要 求 ，sh_link 和 sh_info 默 认 
为 0。 


8) sh_addralign 表 示 段 的 对 齐 方式 ， 对 齐 规 则 为 
sh_offset%sh_addralign=0， 即 段 的 文件 偏 移 必须 是 sh_addralign 的 整数 
倍 。sh_addralign 取 值 必须 是 2 的 整数 蚌 ， 如 1、2、4、8 等 ， 特 别 地 ， 

如 果 sh_addralign 取 值 0 或 1 表示 无 对 齐 要 求 。 比 如 “.text” 段 的 文件 偏 移 
为 118 字 方 ， 对 齐 大 小 为 4 字 节 ， 那 么 对 齐 后 新 的 文件 偏 移 为 120 字 市 ， 
第 118~119 字 节 的 两 字 节 数据 被 “ 空 出 ”"， 需 要 使 用 数据 填充 。 数 据 填充 
一 般 使 用 0x00， 但 是 对 于 代码 段 数 据 ， 使 用 字 节 0x90 填 充 会 更 好 ， 它 


们 对 应 汇编 指令 “nop”， 不 会 影响 代码 的 执行 。 使 用 如 下 公式 可 以 对 段 
偶 移 进行 对 齐 : 


offset+=(align-offset%align)%align 


offset=offset&align+(offset&(align-1))?align:0 


我 们 一 般 采 用 第 一 种 方式 。 在 可 重 定位 目标 文件 中 ， 代 码 段 和 数 
据 段 的 sh_addralign 取 值 一 般 是 4， 即 按照 4 字 节 对 齐 ， 其 他 类 型 的 段 
sh_addralign 取 值 为 1， 无 对 齐 要 求 。 在 可 执行 文件 中 ， 代 码 段 的 
sh_addralign 取 值 一 般 是 16， 即 按照 16 字 节 对 齐 ， 数 据 段 的 sh_addralign 
取 值 一 般 是 4， 即 按照 4 字 节 对 齐 ， 其 他 类 型 的 段 sh_addralign 取 值 为 
1， 无 对 齐 要 求 。 


9) sh_entsize 一 般 用 于 保存 诸如 符号 表 段 、 重 定位 表 段 时 ， 表 示 
段 内 保存 表 的 表 项 大 小 。 例 如 符号 表 段 <.symtab” 内 保存 的 符号 表 的 表 
项 大 小 为 sizeof (Elf32_Sym) =32 字 节 ， 重 定位 
段 “.rel.text”* 或 “.rel.data” 内 保存 的 重 定位 表 的 表 项 大 小 为 sizeof 
(Elf32_Rel) =8 字 节 。 对 于 其 他 类 型 的 段 ， 该 字段 默认 值 为 0， 表 示 
段 内 保存 的 是 非 表 类 型 数据 。 


使 用 命令 “readelf-S file.o" 可 以 查看 ELF 文 件 段 表 的 完整 信息 。 


Section Headers: 


[Nr] Name Type Addr Off Size ES Flg Lk 
Inf Al 

[0] NULL 00000000 000000 000000 00 0 0 
2 [1] .text PROGBITS 00000000 000034 00001d 00 AX 0 0 
[2] .rel.text REL 00000000 ©000350 ©000010 08 9 于 
[3] .data PROGBITS 00000000 000054 000000 00 WA 0 0 
[4] .bss NOBITS 00000000 000054 000000 00 WA 0 0 
2 [5] .rodata PROGBITS 00000000 000054 00000d 00 A 0 0 
[6] .comment PROGBITS 00000000 000061 00002c ©01 MS 0 0 
[7] .note.GNU-stack PROGBITS 00000000 00008d 000000 00 0 0 
和 [8] .shstrtab STRTAB 00000000 00008d 000051 00 0 0 
5 [9] .symtab SYMTAB 00000000 ©000298 0000a0 10 10 8 
[10] .strtab STRTAB 00000000 ©000338 000015 00 0 0 


其 中 列 名 Nr 表 示 段 表 项 索引 、Name 表 示 段 名 、Type 表 示 段 类 型 、 
Addr 表 示 段 线性 地 址 、Oft 表 示 段 文件 偏 移 、Size 表 示 段 大 小 、ES 表 示 
段 内 保存 表 的 表 项 大 小 、Flg 表 示 段 标志 、Lk 和 Inf 表 示 段 链接 信息 、 
Al 表示 段 对 齐 大 小 。 


从 输出 信息 中 可 以 看 出 ， 段 表 的 第 一 项 (索引 0) 保存 无 效 段 表 
项 ， 所 有 字段 初始 化 为 0°。 代码 段 “.text” 的 索引 为 1， 类 型 为 
PROGBITS、 线 性 地 址 为 0、 文 件 侦 移 为 0x34、 大 小 为 0x1d、 段 属性 为 
AX， 即 可 分 配 、 可 执行 (A-Alloc，X-Exec) 、 按 照 4 字 节 对 齐 。 数 据 
段 “.data” 的 段 属性 为 WA， 即 可 写 、 可 分 配 (W-Write，A-Alloc) 、 按 


照 4 字 节 对 齐 。“.bss” 段 类 型 为 NOBITS， 表 示 无 内 容 。 符 号 表 


段 “.symtab” 类 型 为 SYMTAB、 符 号 表 项 大 小 为 0x10、Lk 字 上 段 为 10， 对 
应 “.strtab” 的 段 表 项 ， 表 示 符 号 表 使 用 的 串 表 在 该 段 中 、Inf 字 段 为 8， 
表示 符号 表 内 第 一 个 全 局 符号 表 项 的 索引 (参考 后 面 符 号 表 章 市 给 出 
的 符号 表 信息 ) 。 重 定位 表 段 “.rel.text”* 的 类 型 为 REL、 重 定位 表 项 大 
小 为 0x8、Lk 字 段 为 9， 对 应 “.symtab” 的 段 表 项 ， 表 示 重 定位 表 使 用 的 
从 号 表 在 该 段 中 、Inf 字 段 为 1， 对 应 “.text” 的 段 表 项 ， 表 示 重 定位 表 作 
用 的 段 为 代码 段 “.text”。 


通过 ELF 文 件 的 段 表 ， 可 以 访问 到 ELF 所 有 段 的 内 容 和 信息 ， 继 
而 访问 具体 的 段 。 


5.2.3 ”程序 头 表 


ELF 文 件 的 程序 头 表 与 段 表 是 相互 独立 的 ， 它 们 由 ELF 文 件 头 统一 
管理 。 程 序 头 表 管理 ELF 文 件 加 载 后 ，ELF 文 件 内 可 加 载 段 到 内 存 镜像 
的 映射 关系 ， 一 般 只 有 可 执行 文件 包含 程序 头 表 。 程 序 头 表 包 含 多 个 
程序 头 表 项 ， 程 序 头 表 项 描述 的 对 象 称 为 "Segment”。 为 了 和 段 表 所 拉 
述 的 段 (Section) 进行 区 分 ， 仅 在 本 节 我 们 约定 Segment 称 为 “ 段 "， 而 
Section 称 为 “”。 段 接 述 的 是 ELF 文 件 加 载 后 的 数据 块 ， 而 节 插 述 的 古 
ELF 文 件 加 载 前 的 数据 块 。 一 般 情 况 下 ， 段 与 入 之 则 没有 必然 的 对 应 天 
系 ， 但 不 排除 一 一 对 应 关系 。 比 如 代码 闻 “.text 的 加 载 信息 保存 在 代码 
段 对 应 的 程序 头 表 项 中 ， 数 据 节 “.data” 的 加 载 信息 保存 在 数据 段 对 应 的 
程序 头 表 项 中 。 有 时 候 ， 为 了 简化 程序 头 表 项 的 个 数 ， 会 把 同类 型 的 
多 个 方 ， 甚 至 整个 ELF 文 件 作 为 一 个 段 加 载 ， 这 样 段 与 市 之 间 束 没有 对 
大 条 


程序 头 表 描述 的 加 载 信息 之 所 以 可 以 如 此 灵活 ， 与 程序 头 表 项 的 
言 轧 是 分 不 开 的 。 程 序 头 表 项 记录 了 每 个 段 的 相关 信息 ， 比 如 段 的 类 
型 、 对 应 文件 的 位 置 、 大小、 属性 等 信息 ， 这 些 信息 与 段 表 描述 的 季 
言 轧 是 相互 独立 的 。 程 序 头 表 项 的 数据 结构 定义 为 : 


1 typedef struct{ 
2 Elf32_Wword p_type; // 段 类 型 


3 Elf32_0Off p_offset; // 段 文件 偏 移 


4 Elf32_Addr p_vaddr; // 段 虚拟 地 址 

5 Elf32_Addr p_paddr ， / / 段 物理 地 址 

6 Elf32_Word p_filesz; // 段 在 文件 中 的 大 小 
7 Elf32_Word p_memsz; // 段 需要 的 内 存 大 小 
8 Elf32_Word p_flags; // 段 标志 

9 Elf32_Word p_align; // 段 对 齐 方式 


10 } Elf32_Phdr; 


/ /程序 头 表 项 


结构 体 Elf32_Phdr 描 述 了 ELF 文 件 程序 头 表 项 的 数据 结构 ， 其 每 个 
字段 的 含义 如 下 。 


1) p_type 表 示 段 的 类 型 ， 这 里 我 们 只 关心 可 加 载 的 段 ， 取 值 为 
PT_ LOAD ° 


2) p_offset 表 示 段 对 应 的 内 容 在 文件 内 的 偏 移 。 
3) p_vaddr 表 示 段 在 内 存 的 线性 地 址 。 


4) p_paddr 表 示 段 在 内 存 的 物理 地 址 ， 由 于 现代 操作 系统 中 使 用 了 
分 页 机 制 ， 因 此 不 需要 关心 段 的 物理 地 址 ， 一 般 该 字段 值 与 p_vaddr 相 
同 。 但 是 对 于 未 使 用 分 页 机 制 的 系统 ， 该 字段 可 以 为 行 设置 。 


5) p_filesz 表 示 段 在 文件 内 的 大 小 。 


6) p_memsz 表 示 段 在 内 存 的 大 小 。 我 们 可 以 总 结 出 字段 2、3、5、 
6 表达 的 含义 为 : ELF 文 件 内 从 p_offset 开 始 的 p_filesz 大 小 的 数据 块 被 加 
载 到 内 存 以 p_vaddr 开 始 的 p_ memsz 大 小 的 内 存 块 中 。 由 于 段 的 内 容 需 
要 完整 加 载 到 内 存 ， 因 此 p_memsz 字 段 的 值 一 般 等 于 p_filesz。 但 是 对 
于 类 型 为 SHIT_NOBITS 的 站， 在 ELF 文 件 内 不 存在 数据 。 例 
如 “.bss” 订 ， 它 在 ELF 文 件 内 的 大 小 为 0， 如 果 加 载 到 内 存 后 大 小 大 于 
0， 那 么 其 对 应 的 程序 头 表 项 的 p_filesz 等 于 0， 而 p_memsz 为 一 个 正 整 


7) p_flags 表 示 段 标志 ， 与 段 表 项 的 sh_flags 类 似 ， 描 述 了 段 的 属性 
(权限 ) 。 其 中 1 表示 可 执行 ， 取 值 为 PF_X。2 表 示 可 写 ， 取 值 为 
PF_W。4 表 示 可 读 ， 取 值 为 PF_R。 段 标志 可 以 进行 复合 ， 例 如 代码 
节 “.text* 对 应 的 程序 头 表 项 的 段 标志 为 PF_RIPF_X， 即 可 读 可 执行 。 数 
据 节 “.data” 对 应 的 程序 头 表 项 的 段 标志 为 PF_RIPF_W， 即 可 读 可 写 。 


8) p_align 表 示 段 对 齐 方式 ， 对 齐 规则 为 p_vaddr%p_align=0， 即 段 
的 线性 地 址 必须 是 p_align 的 整数 倍 。 一 般 情 况 下 ，p_align 取 值 为 
0x1000=4096， 有 即 Linux 操 作 系 统 默认 的 页 大 小 。 


如 表 5-17 所 示 ， 文 件 内 有 两 个 段 需 要 加 载 ， 假 设 默 认 加 载 的 线性 地 
址 为 0x08048000。 第 一 个 段 Segl 的 文件 偏 移 为 0x34， 加 载 后 大 小 为 


0x1030。 由 于 是 第 一 个 段 ， 因 此 加 载 地 址 为 0x08048000。 第 二 个 段 
Seg2 的 文件 偏 移 为 0x1064， 加 载 后 大 小 为 0x64。 由 于 Seg1 加 载 后 占用 
了 0x0804800~0x08049030 的 地 址 空间 ， 将 0x08049030 按 照 0x1000 对 齐 
后 得 到 Seg2 的 加 载 地 址 为 0x0804a000。 我 们 发 现 按 照 这 样 的 加 载 方 
式 ， 共 需要 占用 3 个 物理 页 框 ， 对 应 线性 地 址 空间 范围 为 
0x08048000~0x0804a000 。 


表 5-17 上段 地 址 对 齐 


段 p_paddr p_offset p_memsz 


Segl 0x08048000 0x34 0x1030 


Seg2 0x0804a000 0x1064 0x64 


Linux 系 统 中 ， 当 一 个 段 大 小 不 是 页 的 整数 倍 时 ， 将 该 段 的 尾部 与 
下 一 个 段 的 开始 部 分 放 在 同一 个 物理 页 框 内 ， 以 减少 物理 内 存 的 消 
耗 。 由 于 Segl 与 Seg2 对 应 的 内 存 块 大 小 总 和 为 0x1094， 即 使 如 上 Seg1 
之 前 的 文件 内 容 大 小 0x34， 总 大 小 为 0x10c8 也 不 超过 两 个 页 框 大 小 ， 
因此 使 用 两 个 物理 页 框 足 以 完成 段 的 加 载 。 其 基本 思想 是 ， 将 ELF 文 件 
从 偏 移 0 处 开始 到 最 后 一 个 需要 加 载 的 段 结束 位 置 的 地 址 空间 ， 按 照 页 
大 小 进行 逻辑 划分 ， 形 成 多 个 页 ， 每 个 页 都 补 加 载 到 物理 页 框 中 ， 然 
后 将 每 个 物理 页 框 映射 到 线性 地 址 空间 的 页 去 。 如 果 物 理 页 框 内 保存 
了 N 个 段 的 内 容 ， 那 么 需要 向 线性 地 址 空间 的 页 映射 N 次 。 


如 图 5-5 所 示 ， 描 述 了 ELF 文 件 内 需要 加 载 的 内 容 对 应 的 段 Seg1 和 
Seg2 的 布局 《如 采 加 载 的 内 容 包含 “.bss”" ， 则 以 其 加 载 后 的 大 小 


p_memsz 为 准 ) 。 将 ELF 文 件 按照 页 大 小 划分 ， 需 要 加 载 的 段 可 以 保存 
在 两 个 逻辑 页 内 ， 其 中 Seg1 段 被 划分 到 两 个 逻辑 页 中 。 每 个 逻辑 页 都 
被 独立 加 载 到 物理 页 框 内 ， 这 样 逻辑 块 1 对 应 的 物理 页 框 只 保存 了 Seg1 
的 上 半 部 分 内 容 Seg1-1， 而 逻辑 块 2 对 应 的 物理 页 框 保存 了 Seg1 的 下 半 
部 分 内 容 Seg1-2 和 Seg2 的 全 部 内 容 。 通 过 页 映射 将 物理 页 框 再 映射 到 虚 
拟 内 存 页 面 ， 逻 辑 块 1 对 应 的 物理 页 框 映 射 到 线性 地 址 空间 
0x08048000~0x08049000， 而 逻辑 块 2 包含 两 个 段 的 内 容 ， 因 此 需要 映 
射 两 次 ， 分 别 映射 到 线性 地 址 空间 0x08049000~0x0804a000 和 
0x0804a000~0x0804b000。 我 们 可 以 看 出 在 虚拟 内 存 中 Seg1 占 据 的 线性 
地 址 空间 为 0x08048034~0x08049064，Seg2 占 据 的 线性 地 址 空间 为 
0x0804a064~0x0804a0c8。 当然 ， 我 们 不 可 否认 ， 由 于 逻辑 块 2 对 应 的 物 
理 块 的 多 次 映射 ， 在 0x08049064 处 保存 了 Seg2 的 内 容 ， 同 理 在 
0x0804a000 处 保存 了 Seg1-2 的 内 容 。 但 是 由 于 段 按照 页 大 小 对 齐 的 原 
则 ， 要 求 每 个 虚拟 内 存 页 仅 保存 同一 个 段 的 内 容 ， 对 于 由 于 多 次 映射 
导致 页 内 数据 “重复 ”的 问题 并 不 关心 。 


ELF 文 件 物理 内 存 虚拟 内 存 


Ox08048000 
Ox08048034 


Ox1030[ d 0x08049000 


Ox08049064 


Ox0804a000 
Ox0804a064 


Ox0804a0c8 


图 5-5 ”改进 的 段 对 齐 方式 


通过 上 述 段 地 址 的 对 齐 方式 ， 原 本 需要 使 用 3 个 物理 页 框 保存 的 
段 ， 只 需要 两 个 物理 页 框 保存 即 可 ， 减 少 了 物理 内 存 的 消耗 ， 而 在 线 
性 地 址 空间 内 仍 需要 3 个 虚拟 内 存 页 的 大 小 。 但 是 这 样 的 段 地 址 对 齐 方 
式 违反 了 p_vaddr%p_align=0 的 原则 ， 因 此 改进 的 段 地 址 对 齐 规则 描述 
为 p_vaddr%p_align=p_offset%p_align， 即 段 的 线性 地 址 与 段 对 应 文件 内 
容 偏 移 相 对 于 段 对 齐 方式 取 模 同 余 。 使 用 如 下 公式 对 p_vaddr 进 行 对 

齐 o 


p_vaddr+=(p_align-p_vaddr%p_align)%p_align+p_offset%p_align 


即将 p_vaddr 按 照 p_align 正 常 对 齐 后 ， 然 后 替 加 上 p_offsetxp_align 
的 模 。 例 如 Seg1 的 初始 加 载 地 址 p_vaddr=0x08048000， 根 据 
pP_align=0x1000 对 齐 后 仍 为 0x08048000， 素 加 
p_offset%p_align=0x34%0x1000=0x34 后 得 到 对 齐 后 的 
p_vaddr=0x08048034。 同 理 ，Seg2 的 初始 加 载 地 址 为 Seg1 加 载 后 的 下 一 
个 字 节 地 址 ，p_vaddr=0x08048034+0x1030=0x08049064， 根 据 
p_align=0x1000 对 齐 后 为 0x0804a000， 索 加 
p_offset%p_align=0x1064%0x1000=0x64 得 到 对 齐 后 的 
p_vaddr=0x0804a064。 


使 用 命令 “readelf-l file” 可 以 查看 ELF 文 件 程序 头 表 的 完整 信息 。 


Program Headers: 


Type offset VirtAddr PhysAddr FileSiz MemSiz 
Flg Align 

LOAD OxOO00000 ”0x08048000 QOx08048000 Ox84fd2 Ox84fd2 
RE Ox1000 

LOAD OxO85f8c QxO80cdf8c 0x080cdf8c OQxO07d4 0x02388 
RW Ox1000 

OTE 0X0000f4 QOx080480f4 QOx080480f4 OX00044 0OX00044 
R OX4 

TLS 0OXx085f8c QxO8Q0cdf8c 0x080cdf8c Ox00010 Ox00028 
R Ox43 

GNU_STACK 0OXx000000 ”0x00000000 OxOOO0O0O0000 0OXx00000 0OXx00000 
RW OX4 

GNU_RELRO 0OXx085f8c QxO80cdf8c 0x080cdf8c OX00074 0OX00074 
R Ox1 


其 中 列 名 Type 表示 程序 头 表 项 类 型 、Offset 保 存 段 数据 块 相对 文件 
开始 处 的 偏 移 、VirtAddr 表 示 线 性 地 址 、PhysAddr 表 示 物 理 地 址 、 
FileSiz 表 示 段 内 容 在 文件 内 的 大 小 、MemSie 表 示 段 加 载 后 的 内 存 大 
小 、Flg 表 示 段 标志 、Align 表 示 段 对 齐 大 小 。 


从 输出 信息 中 可 以 看 出 ， 程 序 头 表 包 含 两 个 可 加 载 (LOAD) 类 型 
的 段 。 第 一 个 段 是 从 文件 内 偏 移 为 0 处 开始 ， 大 小 为 0x84fd2 的 文件 块 ， 
段 标志 为 RE， 即 可 读 可 执行 ， 由 此 可 以 推断 该 段 包含 了 代码 
节 “.text"， 并 且 将 文件 头 的 内 容 也 一 起 加 载 了 。 加 载 后 的 虚拟 地 址 为 
0x08048000， 内 存 大 小 仍 为 0x84fd2， 对 齐 方式 为 0x1000。 第 二 个 段 开 
台 于 文件 偏 移 0x085f8c 处 ， 是 大 小 为 0x007d4 的 文件 块 ， 段 标志 为 RW， 
即 可 读 可 写 。 段 加 载 后 的 虚拟 地 址 为 0x080cdf8c， 内 存 大 小 为 
0x02388>0x007d4， 由 此 可 以 推 新 该 段 包 侣 了 “.bss” 帮 ， 导 致 加 载 后 的 
内 存 大 小 大 于 文件 块 大 小 。 


通过 ELF 文 件 的 程序 头 表 ， 可 以 为 加 载 器 提供 可 执行 文件 的 详细 加 
载 信 息 ， 包 括 哪些 文件 内 容 需 要 加 载 、 加 载 到 进程 地 址 空间 的 哪个 位 
置 、 页 面 的 权限 等 信息 。 


82 人 行 三 示 


ELF 文 件 的 符号 表 保 存 了 程序 中 的 符号 信息 ， 包 括 程序 中 的 文件 
和 名、 辆 数 名 、 全 局 变量 名 等 。 符 号 表 一 般 保 存在 名 为 .strtab” 的 段 内 ， 
该 段 对 应 段 表 项 的 类 型 为 SHT_SYMTAB。 符 号 表 包 含 多 个 符号 表 项 ， 
每 个 符号 表 项 记录 了 符号 的 名 称 、 位 置 、 类 型 等 信息 。 符 号 表 项 的 数 
据 结 构 定 义 为 : 


1 typedef struct{ 
2 


Elf32_Word st_name; / /符号 名 
3 Elf32_Addr st_value; / /符号 值 
4 Elf32_Word st_size; / /符号 大 小 
5 unsigned char st_info; / /符号 类 型 
6 unsigned char St_other ， / /无 用 字段 
7 Elf32_Section st_shndx; / /符号 所 在 段 


8 } Elf32_Sym; 


/ /符号 表 项 


结构 体 Elf32_Sym 描 述 了 ELF 文 件 符号 表 项 的 数据 结构 ， 其 每 个 字 
段 的 含义 如 下 。 


1) st_name 是 一 个 4 字 字 段 ， 记 录 了 符号 名 字符 串 在 字符 串 表 的 
偏 移 。 与 段 表 字符 串 表 类 似 ， 了 字符 串 表 也 不 是 表 的 形式 ， 而 十 一 个 文 
件 块 ， 你 存 了 所 有 的 符号 名 字符 串 内 容 ， 存 储 在 名 为 “.strtab” 的 段 中 。 
根据 “.strtab" 段 的 偏 移 ， 加 上 st_name 便 可 以 访问 每 个 符号 对 应 的 符号 
名 字符 串 ， 因 此 和 欲 解 析 符 号 名 必须 访问 *“.strtab” 段 。 与 段 表 中 提 到 
的 “.shstrtab” 段 一 起 ， 我 们 在 串 表 一 节 会 对 它们 作 详 细 描述 。 


2) st_value 记 录 了 符号 的 值 ， 一 般 在 可 重 定位 目标 文件 内 ， 该 值 
记录 了 符号 相对 于 所 在 段 基 址 的 偏 移 量 ， 而 在 可 执行 文件 内 ， 该 值 记 
录 了 符号 的 线性 地 址 。 


3) st_size 表 示 符 号 的 大 小 ， 单 位 为 字 节 。 


4) st_info 大 小 为 一 个 字 节 ， 表 示 符 号 类 型 相关 的 信息 ， 其 低 4 位 
表示 符号 的 类 型 使 用 宏 ELF32_ST_TYPE 获 取 ， 高 4 位 表示 符号 的 绑 定 
言 息 ， 使 用 宏 ELF32_ST_BIND 获 取 。 符 号 类 型 为 0 时 表示 未 知 类 型 ， 
取 值 STT_NOTYPE。1 表 示 数 据 对 象 ， 比 如 变量 、 数 组 等 ， 取 值 
STIT_OBJECT。2 表 示 函 数 ， 取 值 STT_FUNC。3 表 示 段 ， 取 值 
STT_SECTION。4 表 示 文 件 名 ， 取 值 STT_FILE。 符 号 绑 定 信息 为 0 时 
表示 局 部 符号 ， 取 值 STB_LOCAL 。1 表 示 全 局 符号 ， 取 值 
STB_GLOBAL 。2 表 示弱 符号 ， 取 值 STB_WEAK， 为 了 简化 问题 的 讨 
论 ， 我 们 不 关心 弱 符 号 相关 的 ELF 文 件 信息 。 


5) st_other 没 有 实际 含义 ， 默 认为 0 。 


6) st_shndx 表 示 符 号 所 在 段 对 应 的 段 表 项 在 段 表 内 的 索引 ， 一 般 
取 值 为 正 整数 。 当 该 字段 为 0 时 ， 表 示 符 号 未 定义 ， 取 值 
SHN_UNDEF。 该 字段 为 0xfffl1 时 ， 表 示 符 号 为 绝对 值 ， 比 如 文件 名 ， 
取 值 SHN_ABS。 该 字段 为 0xfff2 时 ， 表 示 符 号 在 COMMON 块 内 ， 取 值 
SHN_COMMON， 特 别 的 ， 此 时 符号 的 st_value 表 示 符 号 的 对 齐 属性 。 
COMMON 块 与 “ 弱 人 符号 ”的 概念 相关 ， 我 们 不 作 深入 讨论 ， 感 兴趣 的 读 
者 可 以 检索 弱 符 号 的 资料 深入 了 解 。 


使 用 命令 “readelf-s file.o" 可 以 查看 ELF 文 件 符号 表 的 完整 信息 。 


Symbol table '.symtab' contains 10 entries: 


Num: Value Size Type Bind Vis Ndx Name 
0: 00000000 0 NOTYPE LOCAL DEFAULT UND 

1: 00000000 0 FILE LOCAL DEFAULT ABS hello.c 
2: 00000000 0 SECTION LOCAL DEFAULT 1 

3: 00000000 0 SECTION LOCAL DEFAULT 3 

4: 00000000 0 SECTION LOCAL DEFAULT 4 

5: 00000000 0 SECTION LOCAL DEFAULT 5 

6: 00000000 0 SECTION LOCAL DEFAULT 7 

7: 00000000 0 SECTION LOCAL DEFAULT 6 

8: 00000000 29 FUNC GLOBAL DEFAULT 工 main 
9: 00000000 0 NOTYPE GLOBAL DEFAULT UND printf 


其 中 列 名 Num 表 示 符 号 表 项 索引 、Value 表 示 符 号 值 、Size 表 示 符 
号 大 小 、Type 表 示 符 号 类 型 、Bind 表 示 符 号 绑 定 信息 、Vis 信 息 不 必 天 


心 、Ndx 表 示 符 号 所 在 段 、Name 为 符号 各。 


从 输出 信息 中 可 以 看 出 ， 符 号 表 的 第 一 项 (索引 0) 保存 无 效 符号 
表 项 ， 所 有 字段 初始 化 为 0。 索 引 为 1 的 符号 表 项 表示 文件 


名 “hello.c”， 其 类 型 为 TYPE， 绑 定 信息 为 LOCAL ，st_shndx 值 为 
SHN_ABS。 有 索引 为 8 的 符号 表 项 表示 函数 名 “main”， 类 型 为 FUNC， 大 
小 为 29Byte， 绑 定 信 息 为 GLOBAL ，st_shndx=1 表 示 符 号 在 代码 
段 “text* 内 〈 见 5.2.2 有 ELEF 文 件 的 段 表 信息 ) 。 索 引 为 9 的 符号 表 项 表 
示 画 数 名 “printf”，st_shndx=SHN_UNDEF， 表 示 符 号 未 定义 〈 外 部 符 
号 ) ， 因 此 符号 类 型 为 NOTYPE， 即 未 知 类 型 ， 外 部 符号 绑 定 信息 一 


般 都 是 GLOBAL 。 


通过 ELF 文 件 的 符号 表 ， 可 以 访问 所 有 符号 的 信息 ， 其 中 符号 
名 、 符 号 值 和 绑 定 信息 对 链接 绥 至 天 重要 。 


5.2.5 重 定 位 表 


重 定 位 表 稼 见于 可 重 定位 目标 文件 内 ， 对 于 静 仿 链接 生成 的 可 执 
行文 件 ， 一 般 不 包含 重 定位 表 ， 动 态 链接 生成 的 可 执行 文件 不 在 我 们 
讨论 的 范围 内 。 重 定位 表 一 般 保 存在 以 名 为 rel" 开头 的 段 内 ， 该 段 对 
应 段 表 项 的 类 型 为 SHT_REL 。ELF 文 件 需要 重 定 位 的 段 ， 一 般 都 对 应 
一 个 重 定位 表 。 比 如 代码 段 “.text* 的 重 定位 表 保 存在 “.rel.text” 段 内 ， 
数据 段 “.data” 的 重 定位 表 保 存在 “.rel.data” 内 。 重 定位 表 包 含 多 个 重 定 
位 表 项 ， 每 个 重 定 位 表 项 记 杂 一 条 重 定位 信息 ， 包 括 重 定 位 的 符号 、 


位 置 、 类 型 等 信息 。 重 定位 表 项 的 数据 结构 定义 为 : 


1 typedef struct{ 
2 Elf32_Addr r_offset,; // 重 定位 地 址 


3 Elf32_Wword r_info,; // 重 定位 类 型 和 符号 


4 } Elf32_Rel; 


// 重 定位 表 项 


结构 体 Elf32_Rel 搬 述 了 ELF 文 件 重 定位 表 项 的 数据 结构 ， 其 每 个 
字段 的 含义 如 下 。 


1) r_offset 表 示 重 定位 地 址 ， 对 于 可 重 定 位 目标 文件 来 说 ， 表 示 
重 定 位 位 置 相对 于 被 重 定位 段 的 基 址 的 偏 移 。 而 对 于 可 执行 文件 或 共 


享 目标 文件 来 说 ， 表 示 重 定位 位 置 对 应 的 线性 地 址 ， 这 与 动态 链接 相 
天 ， 我 们 不 作 深 入 讨论 。 


2) T_info 描 述 了 重 定 位 类 型 和 符号 ， 其 低 8 位 表示 重 定位 类 型 ， 使 
用 宏 ELF32_R_TYPE 获 取 ， 高 24 位 表示 重 定 位 符号 对 应 的 符号 表 项 在 
符号 表 内 的 索引 ， 使 用 宏 ELF32_R_SYM 获 取 。 不 同 的 处 理 器 体系 结 
构 都 有 属于 自己 的 一 套 重 定位 类 型 ， 对 于 x86 体 系 结构 而 言 ， 静 态 链 接 
中 常见 的 重 定位 类 型 有 两 种 : 绝对 地 址 重 定位 ( 取 值 R_386_32) 和 相 
对 地 址 重 定位 R_386_PC32。 每 条 重 定位 信息 的 含义 为 使 用 r_info 记 杂 
的 符号 的 线性 地 址 ， 根 据 重 定位 类 型 更 新 r_offset 处 的 内 存 信息 。 关 于 
不 同 重 定 位 类 型 的 实现 细节 ， 在 第 7 章 中 会 进行 详细 描述 。 


使 用 命令 “readelf-r file.o” 可 以 查看 ELF 文 件 重 定位 表 的 完整 信息 。 


Relocation section ' .rel.text' at offset 0x350 contains 2 entries: 


offset Info Type Sym.Value 

Sym.Name 

0000000a 00000501 R_386_32 00000000 

.rodata 

©00000012 00000902 R_386_PC32 00000000 printf 


其 中 列 名 Offset 表 示 重 定位 地 址 、Info 表 示 重 定位 信息 、Type 表 示 
重 定位 类 型 、Sym.Value 表 示 重 定位 符号 的 值 st_value、Sym.Name 表 示 


重 定位 符号 的 名 称 。 


从 输出 信息 中 可 以 看 出 ， 重 定位 表 的 第 二 项 描述 了 使 用 符号 printf 
对 代码 段 “.text”* 的 0x12 处 的 内 存 进行 重 定位 ， 重 定位 类 型 为 相对 地 址 


重 定位 。 这 是 因为 在 可 重 定位 目标 文件 内 ，printf 是 外 部 符号 ， 无 法 确 
定 它 的 线性 地 址 ， 因 此 对 printf 的 call 指 令 的 操作 数 无 法 确定 ， 必 须 由 
链接 絮 根 据 该 重 定位 信息 重新 计算 call 指 令 的 操作 数 。 


根据 ELF 文 件 的 重 定位 表 描 述 的 重 定位 信息 ， 链 接 右 对 目标 文件 
内 的 数据 和 代码 内 容 进行 修正 ， 保 证 了 可 执行 文件 内 的 代码 和 数据 的 
完整 性 。 


5.2.6 ”上 捉 表 


ELF 文 件 内 的 段 表 和 符号 表 需 要 记录 段 名 和 符号 名 ， 这 些 名 称 都 是 
字符 串 。 然 而 ， 段 表 项 和 符号 表 项 都 是 固定 长 度 的 数据 结构 ， 无 法 存 
储 不 定 长 的 字符 串 。 因 此 ELF 文 件 将 名 称 字符 串 内 容 集中 存放 在 一 个 段 
内 ， 称 为 串 表 。 这 样 段 表 项 或 符号 表 项 只 需要 记录 段 名 字符 串 或 符号 
名 字符 串 在 对 应 串 表 内 的 位 车 即 可 。 哇 然 存储 的 字符 串 内 容 称 为 囊 
表 ， 但 并 非 “ 表 ”的 形式 ， 而 十 一 块 文件 区 域 。 


使 用 命令 “hexdump-C fle.0* 可 以 查看 ELF 文 件 的 所 有 信息 。 


00000000 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 O00 | .ELF. .i | 
00000010 01 00 03 00 01 00 00 00 00 00 00 00 00 00 00 O00 1, .is | 


00000020 egQ 00 00 00 00 00 00 00 34 00 00 00 00 00 28 00 | .is i (.| 
00000030 0Qb 00 08 00 55 89 e5 83 e4 f0 83 ec 10 b8 00 00 | .Ui | 
00000040 00 00 89 04 24 e8 fc ff ff ff b8 00 00 00 00 c9 | .$i | 
00000050  c3 00 00 00 48 65 6c 6c 6f 20 57 6f 72 6c 64 21 |....Hello World!| 
00000060 00 00 47 43 43 3a 20 28 55 62 75 6e 74 75 2f 4c |..GCC: (Ubuntu/L | 


00000070 69 6e 61 72 6f 20 34 2e 34 2e 34 2d 31 34 75 62 |inaro 4.4.4-14ub| 
00000080 75 6e 74 75 35 29 20 34 2e 34 2e 35 00 00 2e 73 |untu5) 4.4.5...s| 
00000090 79 6d 74 61 62 00 2e 73 74 72 74 61 62 00 2e 73 |ymtab..strtab..s| 
QQ00000a0 68 73 74 72 74 61 62 00 2e 72 65 6c 2e 74 65 78 |hstrtab..rel.tex| 
000000b0 74 00 2e 64 61 74 61 00 2e 62 73 73 00 2e 72 6f |t..data..bss..ro| 
QQ00000cO 64 61 74 61 00 2e 63 6f 6d 6d 65 6e 74 00 2e 6e |data..comment..n| 
000000d0 6f 74 65 2e 47 4e 55 2d 73 74 61 63 6b 00 00 00 |ote.GNU-stack... | 
QQ00000eQ 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 O00 1. ，， | 
* 

00000330 00 00 00 00 10 00 00 00 00 68 65 6c 6c 6f 2e 63 |,.,..,,.,，,， hello.c| 
00000340 00 6d 61 69 6e 00 70 72 69 6e 74 66 00 00 00 00 | .main.printf....| 
00000350 Qa 00 00 00 01 05 00 00 12 00 00 00 02 09 00 O00 | | 
00000360 


在 前 面 给 出 的 段 表 信息 中 ,，“.shstrtab” 段 的 文件 偏 移 为 0x8d， 大 小 
为 0x51。 段 内 第 一 个 字 廊 为 0x00， 表 示 空 串 “”。 后 面 依次 为 段 名 字符 


串 “.symtab”“.strtab”“.shstrtab”.rel.text”“.data”“.bss”".rodata”’“.comment”” 


.note.GNU-stack”。 因此 对 于 “.rel.text” 段 ， 其 段 表 项 的 字段 
sh_name=0xa8-0x8d=0x1b。 而 对 于 “.text* 段 ， 其 段 名 是 “.rel.text* 的 后 
级 ， 因 此 可 以 共享 字符 串 存 储 ， 对 应 的 段 表 项 的 字段 sh_name=0xac- 
0x8d=0x1f 。 


而 “.strtab” 段 的 文件 偏 移 为 0x338， 大 小 为 0x15。 上 段 内 第 一 个 字 节 为 
0x00， 表 示 空 串 “”。 后 面 依次 为 从 号 名 字符 串 “hello.c”“main”“printf”。 


因此 对 于 符号 printff， 其 符号 表 项 的 字段 st_name=0x346-0x338=0x0e 。 


ELF 文 件 将 字符 串 内 容 保存 到 串 表 段 内 ， 这 样 使 用 字符 串 的 文件 结 
构 只 需要 记录 字符 串 在 哪个 段 的 哪个 位 置 即 可 。 


综 上 所 述 ， 我 们 可 以 总 结 出 稼 见 ELF 文 件 结构 之 间 的 关系 。 


如 图 5-6 所 示 ， 通 过 ELF 文 件 头 的 e_ph* 字 段 可 以 定位 到 程序 头 表 。 
同样 地 ， 通 过 e_sh* 可 以 定位 到 段 表 。 段 表 内 记录 了 串 表 、 符 号 表 、 重 
定位 表 对 应 的 段 ， 以 及 代码 段 和 数据 段 的 信息 ， 欲 取得 这 些 段 的 段 
名 ， 必 须 通 过 ELF 文 件 头 结构 提供 的 e_shstrmndx 字 段 找到 “.shstrtab” 的 段 
表 项 ， 继 而 定位 到 该 段 的 数据 ， 取 得 其 保存 的 所 有 段 的 名 字 sh_name。 
通过 符号 表 段 “.symtab” 的 段 表 项 内 的 sh_link 字 上段 记 杂 的 “.strtab” 段 在 段 
表 的 索引 找到 字符 串 表 ， 继 而 取得 该 表 内 保存 的 所 有 符号 的 名 字 
st_name。 重 定位 表 段 (“.rel.data” 和 “.rel.text”) 通过 其 段 表 项 内 的 
sh_info 字 上段 找 到 被 重 定位 的 段 ， 并 通过 重 定位 项 内 的 r_offset 找 到 需要 


重 定 位 的 位 置 。 为 外 ， 重 定位 表 还 通过 其 段 表 内 的 sh_link 子 段 找到 被 
重 定 位 符号 所 在 的 人 符号 表 段 ， 并 结合 重 定位 项 的 r_info 字 段 保存 的 个 重 
定位 符号 在 符号 表 内 的 位 置 找 到 被 重 定 位 的 符号 信息 。 


e_phentsize e_shentsize 
e_phnum e_shnum 


Program Section 
HeaderTable | <E<E<E<K<K<K，_- 一 和 Header Table 
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e_phoff } ELF Header | e_shoff 


， 
yy 
er name 
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rin ‘bss 
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r_offset 


图 5-6 ELF 文件 结构 关联 


5.3 “本章 小 结 


本 章 详细 讨论 了 x86 指 令 格 式 和 ELEF 文 件 格式 的 相关 知识 。 通 过 对 
x86 指 令 结构 的 解析 ， 了 解 了 指令 中 的 指令 前 级 、 操 作 码 、ModR/M 字 
段 、SIB 字 段 、 仿 移 、 立 即 数 的 功能 和 含义 ， 并 对 比 了 ATI&T 汇 编 格式 
与 Intel 汇 编 格 式 的 不 同 ， 以 帮助 理解 Linux 下 的 x86 汇 编 语言 。 通 过 对 
ELF 文 件 结构 的 解析 ， 了 解 了 文件 涉 、 段 表 、 程 序 头 表 、 符 号 表 、 重 
定位 表 、 串 表 的 含义 和 功能 ， 彻 底 弄 清 了 可 重 定位 目标 文件 和 可 执行 
文件 的 内 容 和 细节 。 


在 接 下 来 的 汇编 右 构 造 中 ， 大 多 数 工 作 都 是 集中 在 分 析 和 收集 汇 
编 语言 中 与 可 重 定位 目标 文件 结构 相关 的 信息 上 ， 而 分 析 汇 编 指令 结 
构 ， 以 及 将 之 翻译 为 二 进 制 代码 与 前 面 描述 的 x86 指 令 格式 恩 轧 相关 。 
在 最 后 的 链接 郁 构 造 中 ， 更 需要 根据 ELF 文 件 格式 解析 可 重 定位 目标 
文件 的 内 容 ， 生 成 可 执行 文件 。 链 接 过 程 中 的 重 定位 操作 也 需要 用 到 
ELE 文 件 的 重 定位 表 结 构 ， 以 及 x86 指 令 结构 的 相关 知识 。 


第 6 草 ”汇编 右 构 霹 


不 识 庐山 真面目 ， 只 绿 号 在 此 山中 。 


一 一 《 题 西林 壁 》 


从 字面 上 来 看 ， 汇 编 右 和 编译 右 好 像 是 两 种 完全 不 同 的 事物 ， 实 
际 上 它们 之 间 有 着 很 大 的 相似 性 。 与 其 称 为 汇编 器 ， 倒 不 如 称 作 “ 汇 编 
语言 编译 器 ”更 为 合适 。 编 译 侨 将 高 级 语言 翻译 为 汇编 语言 ， 而 汇编 器 
将 汇编 语言 翻译 为 二 进 制 语言 。 结 合 前 面 介绍 的 现代 编译 絮 的 结构 
前 端 、 优 化 器 和 后 端 ， 汇 编 器 和 编译 器 拥有 相似 的 前 端 结构 ， 即 
它们 的 词法 分 析 器 和 语法 分 析 器 结构 基本 相同 ， 有 差别 在 于 输入 的 数据 
形式 不 同 。 沪 编 器 的 词法 分 析 器 的 输入 十 让 编 语言 的 词法 记号 ， 语 法 
分 析 器 的 输入 是 汇编 语言 文法 。 


正如 构造 编译 器 时 需要 清晰 了 解 目 定义 语言 的 特性 那样 ， 构 造 汇 
编 器 时 也 要 清晰 了 解 待 处 理 的 汇编 语言 特性 。 我 们 的 目的 并 不 是 构造 
一 个 完善 的 工业 化 汇编 右 ， 拥 有 处 理 所 有 形式 汇编 指令 的 能 力 。 实 际 
上 只 需要 处 理 已 实现 的 编译 万 生 成 的 汇编 代码 所 涉及 的 指令 ， 便 达到 
了 学 习 构 造 汇编 器 的 目的 。 


NVS 
HH 
人 


编译 需 生 成 的 汇编 代码 ， 我 们 对 目 定义 的 汇编 语言 的 特性 描 


1) 符号 声明 。 文 持 NASM 格 式 的 数据 定义 、section 段 声明 、 
委 obal 全 局 人 符号 声明 、equ 突 声明 等 。 六 编 语言 的 标识 符 包含 编译 器 生 
成 的 临时 符号 (以 “@L” 加 数字 构成 ， 以 及 段 名 (以 “* 开 始 的 字符 
串 ) ， 因 此 汇编 语言 标识 符 允 许 出 现 特 殊 符 号 ‘@? 和 '.?。 


2) 常量 。 文 持 整 数 和 字符 串 常量 ， 其 中 整数 仅 限 十 进 制 整数 ， 而 
字符 串 常量 不 包含 园 义 字符， 这 是 因为 编译 此 生 成 数据 段 时 将 整数 统 


一 按照 十 进 制 输出 ， 将 字符 串 转 化 为 仅 包 含 可 见 字 符 的 NASM 格 式 的 


3) 寻 址 模式 。 文 持 立 即 寻 址 、 寄 存 器 寻 址 、 寄 存 器 间 址 、 间 接 寻 
址 、 基 址 + 偏 移 寻 址 、 基 址 + 变 址 寻 址 的 寻 址 方式 。 我 们 的 编译 器 输出 
的 汇编 指令 中 不 存在 基 址 + 变 址 + 偏 移 的 寻 址 方式 ， 在 此 不 作 考 虑 。 


4) 指令 。 文 持 编译 器 输出 的 所 有 指令 。 其 中 包含 双 操作 指令 
mov、cmp、add、sub、and、or、lea， 单 操作 数 指令 call、int、imul、 
idivV、hneg、inc、dec、jmp、je、jne、sete、Ssetne、Ssetg、Setge、Ssetl、 


setle、push、pop， 无 操作 数 指令 ret 。 


5) 其 他 。 支 持 分 号 开始 的 单行 注释 。 


参考 图 2-12 描 述 的 汇编 器 的 结构 设计 ， 我 们 接 下 来 详细 阐述 汇编 
右 每 个 功能 模块 的 实现 。 


6.1 词法 分 析 


与 编译 器 词法 分 析 的 过 程 相同 (参考 图 3-1) ， 汇 编 右 的 词法 分 析 
也 需要 扫描 硕 顺 序 读 取 汇 编 语言 源 文 件 的 字符 ， 然 后 与 汇编 语言 词法 
记号 的 有 限 目 动机 匹配 ， 得 到 汇编 语言 的 词法 记号 。 


因此 ， 在 汇编 亏 的 词法 分 析 阶 段 ， 我 们 只 需要 弄 清 所 需 的 词法 记 
号 ， 以 及 识别 词法 记 喜 的 有 限 目 动 机 ， 便 可 以 依 样 画 萌 卢 地 构造 汇编 


6,1.1 词法 记 坊 


结合 前 面 对 目 定义 汇编 语言 特性 的 描述 ， 我 们 设计 的 汇编 语言 词 
法 记号 如 下 : 


1) 符号 声明 。 文 持 NASM 格 式 的 数据 定义 、section 段 声明 、8global 
全 局 符号 声明 、equ 宏 声明 等 。NASM 格 式 的 数据 定义 中 ， 使 用 db、 
dw、dd 描 述 单位 内 存 的 大 小 ， 使 用 times 表 示 数 据 内 容 的 重复 次 数 ， 以 
及 使 用 喜 号 分 隅 不 同 的 数据 内 容 《如 数字 和 字符 串 ) ， 因 此 涉及 的 词 
法 记号 有 关键 字 db、dw、dd、times 和 分 隔 符 ‘,，，。 另 外 ， 段 声明 、 全 
局 符号 声明 和 宏 声 明 涉 及 了 关键 字 section、global 和 equ。 最 后 ， 汇 编 语 


声 
言 中 经 常 使 用 标签 符号 (标识 符 后 紧 跟 符号 ‘:: ') ， 因 此 ;也 是 词法 


2) 常量 。 文 持 整 数 和 字符 串 常量 ， 涉 及 的 词法 记号 有 数字 常量 
num 和 字符 串 币 量 str。 其 中 数字 音量 文 持 十 进 制 整数 ， 因 此 允许 出 现 正 
负 号 + 和 和 一。 与 音量 对 应 的 变量 使 用 标识 符 表 示 ， 因 此 标识 符 id 也 是 


词法 记号 ， 只 不 过 汇编 语言 的 标识 符 允 许字 符 '"@' 和 … 出 现 。 


3) 寻 址 模式 。 文 持 立 即 寻 址 、 寄 存 侨 寻 址 、 寄 存 器 间 址 、 间 接 寻 
址 、 基 址 + 偏 移 寻 址 、 基 址 + 变 址 寻 址 的 寻 址 方式 。 在 各 种 寻 址 模式 
中 ， 经 常会 用 到 寄存 器 进行 寻 址 ， 因 此 所 有 的 寄存 器 名 都 古 天 键 子 。 


由 于 我 们 的 编译 器 生成 的 汇编 指令 中 只 使 用 了 8 位 和 32 位 寄存 器 ， 为 了 
简化 ， 我 们 定义 了 如 下 寄存 器 名 关键 字 : 8 位 寄存 器 al、cl、d、bl、 
ah、ch、dh、bh， 以 及 32 位 寄存 器 eax 、ecx 、edx、ebx、esp、ebp、 


esi、 edi° 
4) 指令 。 支 持 编译 器 输出 的 所 有 指令 。 指 令 助 记 符 不 能 作为 一 般 


的 标识 符 使 用 ， 因 此 全 部 是 关键 字 。 包 括 双 操作 指令 mov、cmp、 
add、sub、and、or、lea， 单 操作 数 指令 call、int、imul 、idiv、neg、 


inc ~ dec ~、 jmp “ je ~ jne 、 sete ~、 setne 、 setg 、 setge 、 setl 、 setle 、 push 、 


pop， 无 控 作 数 指令 ret 。 


5) 其 他 。 支 持 分 号 开始 的 单行 注释 。 为 了 方便 处 理 ， 我 们 假定 编 
译 器 生成 的 汇编 语 言 是 没有 错误 的 。 即 便 如 此 我 们 也 需要 词法 记号 err 
表示 无 效 的 词法 记号 (如 注释 ) ， 词 法 分 析 器 或 语法 分 析 器 都 自动 名 
略 这 个 词法 记号 。 同 样 地 ， 还 有 一 个 词法 记号 end， 写 表示 文件 结 


于 是 ， 我 们 得 到 目 定义 汇编 语言 所 有 的 词法 记号 ， 如 表 6-1 所 示 。 


表 6-1 汇编 词法 记号 


有 到 
we | 
| 一 us | 
HT aa | | 一 和 一 一 
ja | mm | 一 
“Nl i | 
me aa 
一 ww | 上 | 。， 了 
一 au wa | 二 
一 sa 
Ca Tu 二 
wm ww | 
PT WE 
x | ud | 由 ae | 
人 em Tu 
人 em Tu | i 
| 2 
一 元 
一 mm | am | um | 天 
| | 
Er "i “i >。 
a | ws | 几 / 
| | 
| 
ee 


同样 地 ， 我 们 使 用 一 个 枚 举 类 型 记录 所 有 的 词法 记号 标签 ， 为 后 
面 的 代码 提供 符号 定义 。 


1 /* 
2 ”词法 记号 标 旬 


除 


3 */ 
4 enum Tag 


{ 

5 ERR, / /错误 ， 异常 
6 END, / /文件 结束 标记 
7 ID, / /标识 符 

8 NUM, STR， // 常 量 

9 BR_AL, BR_CL, BR_DL, BR_BL, / /8 位 寄存 器 
10 BR_AH, BR_CH, BR_DH, BR_BH, 

4 DR_EAX, DR_ECX, DR_EDX, DR_EBX， //32 位 寄存 器 
12 DR_ESP, DR_EBP, DR_ESI, DR_EDI, 

13 I_MOV, I_CMP, I_SUB, I_ADD, I_AND,I_OR,I_LEA, // 双 操作 数 指令 
14 I_CALL,I_INT,I_IMUL,I_IDIV,I_NEG,I_INC,I_DEC， // 单 操作 数 指令 
15 I_JMP,I_JE,I_JNE， 

16 I_SETE,I_SETNE,I_SETG,I_SETGE,I_SETL,I_SETLE， 

17 I_PUSH, I_POP, 

18 I_RET, 

19 KW_SEC, KW_GLB, KW_EQU, KW_TIMES, // 声 明 

20 KW_DB, KW_DW, KW_DD， 

21 ADD, SUB, COMMA, LBRAC, RBRAC, COLON // 界 符 

22 3}3 


确定 了 词法 分 析 器 的 词法 记号 后 ， 接 下 来 定义 有 限 目 动机 对 词法 
记号 进行 解析 。 


6.1.2 有限 自 动机 


放 编 右 的 词法 记号 相对 于 编译 避 要 信 单 很 多 ， 因 此 六 编 语言 词法 
记号 的 有 限 目 动机 形式 也 相对 人 简单。 我 们 重点 介绍 汇编 右 中 与 编译 天 
差别 较 大 的 有 限 目 动机 的 构造 。 


1. 标 识 符 


由 于 编译 器 生成 的 汇编 代码 中 ， 字 符 :@* 用 于 修饰 自动 生成 的 符 
号 ,字符 “用 于 引导 段 名 ， 因 此 汇编 器 的 标识 符 中 允许 出 现 这 两 个 字 
符 。 因 此 ， 汇 编 语言 标识 符 有 限 自动 机 如 图 6-1 所 示 。 


@|.|-|A-Zla-z|0-9 


| We 


图 6-1 标识 符 有 限 目 动机 
2. 天 键 字 


汇编 语言 包 侣 大 量 的 关键 字 ， 这 是 因为 除了 一 般 的 关键 字 外 ， 汇 
编 指令 的 助 记 符 、 寄 存 需 名 也 必须 是 唯一 的 。 除 了 在 数量 上 汇编 秦 比 


编译 表 的 关键 字 多 之 外 ， 对 于 关键 子 的 识别 方式 汇编 右 和 编译 紫 完 全 
相同 。 这 里 读者 可 以 参考 编译 各 中 关键 字 章 节 摘 述 的 内 容 。 


3. 钊 量 
汇编 器 涉及 的 常量 词法 记号 有 两 种 数字 常量 和 字符 串 常量 ， 且 
形式 比 编译 句 的 更 加 人 简单。 


对 于 数字 第 量 ， 我 们 设计 的 词法 分 析 融 仅 考 虑 十 进 制 非 负 整数 ， 
至 于 正人 负 号 交 给 语法 分 析 絮 处 理 。 因 此 数字 词法 记号 的 定义 为 数 子 字 
符 0~9 的 任意 组 合 。 其 有 限 目 动机 结构 如 图 6-2 所 示 。 

对 于 字符 串 常量 ， 由 于 让 编 语言 使 用 了 数字 代替 了 字符 串 内 出 现 
的 特殊 字符 《换行 、 表 符 等 ) ， 因 此 汇编 语言 字符 串 有 限 目 动机 内 不 
需要 考虑 转 义 字符 的 情况 。 其 有 限 目 动机 结构 如 图 6-3 所 示 。 


0-9 


-> 


图 6-2 ”整数 有 限 目 动机 


、 

Ta 

a 人 Ys 
图 6-3 ”字符 串 有 限 自 动机 


4. 界 符 


在 我 们 定义 的 谍 编 语言 中 ， 只 有 单字 市 界 符 存在 ， 且 只 有 6 个 ， 分 
别 是 表示 整数 符号 的 *+ 和 一 、 分 隔 符 ，”、 指令 的 内 存 操作 数 所 需 的 
符号 和 条、 标签 使 用 的 “<: ”。 其 识别 方式 与 编译 万 的 界 符 相 同 。 


5. 无 效 词法 记号 


我 们 定义 的 汇编 语言 涉及 的 无 效 词法 记号 也 包含 至 日 字符 和 注 
释 ， 其 中 空白 字符 的 识别 方式 与 编译 融 完 全 相同 ， 而 注释 “退化 ”为 
以 ‘; :开始 的 单行 注释 。 其 有 限 目 动机 结构 如 图 6-4 所 示 。 
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uw 2 
图 6-4 注释 有 限 目 动机 


根据 以 上 对 汇编 语言 词法 记号 有 限 目 动机 的 撒 述 ， 结 合 编译 需 章 
节 对 词法 分 析 器 、 解 析 器 的 构造 原理 ， 不 难 构造 出 汇编 器 的 词法 分 析 


口 


I 


人 人 靶 厅 作 


我 们 的 汇编 如 语法 分 析 名 也 是 使 用 递归 下 降 子 程序 的 方式 实现 
的 ， 与 编译 如 章节 描述 的 语法 分 析 类 似 ， 明 确 语言 的 文法 定义 是 构造 
语法 分 析 右 的 前 提 。 


6.2.1 汇编 语言 程序 


相 比 于 高 级 语言 ， 汇 编 语 言 在 语法 结构 上 要 简单 许多 。 宏 观 上 来 
看 ， 汇 编 语 言 程序 包含 两 个 重要 的 组 成 部 分 ， 声 明和 指令 。 


例如 汇编 程序 : 


1 section .data / /数据 段 声明 
2 array times 256 db 0 / /数组 数据 定义 
3 x db 100 / /变量 数据 定义 
4 section .text / /代码 段 声明 
5 global main / /全 局 符号 声明 
6 main: / /标签 数据 定义 
7 ret // 指 令 


整个 汇编 语言 程序 是 声明 和 指令 的 “无 限 "组 合 ， 因 此 使 用 如 下 产 
生 式 可 以 描述 汇编 语言 程序 。 


<program>-><segment><program> | : 


<segment>-><dec> | <inst> 


声明 部 分 包含 : 


1) 段 声明 ， 用 于 声明 一 个 新 的 段 ， 例 如 section.text 。 
2) 全 局 符号 声明 ， 用 于 声明 全 局 符号 ， 例 如 global main 。 


3) 数据 定义 ， 用 于 定义 数据 或 标签 等 。 形 如 array times 256 db 0 


和 。 
于 


数据 定义 的 形式 可 能 有 很 多 种 ， 不 过 它们 都 是 以 标识 符 ID 开 始 ， 
不 同 于 段 声 明 以 KW_SEC 开 始 ， 以 及 全 局 符号 声明 以 KW_GLB 开 始 。 


指令 部 分 则 是 以 不 同 的 汇编 指令 助 记 符 开始 的 ， 可 以 与 声明 完全 
区 分 开 。 因 此 我 们 可 以 使 用 如 下 的 产生 式 序 列表 达 汇 编 语言 程序 。 


<program>->KkwW_SEC ID <program> 
| KWw_GLB ID <program> 
| ID <lbtail> <program> 
| <inst> <program> 


| 过 


其 中 非 终结 符 <lbtail> 表 示 以 标识 符 开 始 的 数据 定义 的 后 半 部 分 。 
由 于 以 上 产生 式 不 包含 公共 的 左 公 因子 ， 因 此 可 以 同时 出 现在 
<program> 右 侧 的 产生 式 中 。 


照 编 译 吉 章 下 对 递归 下 降 子 程序 构造 方式 的 摘 述 ， 


应 的 子 程序 的 代码 为 : 


1 void Parser::program 


(OO oO— 


switch(look->tag)t{ 
case END 


/ /文件 结束 ， 


停止 语法 分 析 
return 
case KW_ SEC 
// 段 声明 


match(ID 


break; 
case KW_GLB 


match(ID 
break; 
caseID 
/ /数据 定义 


lbtail 


break; 
default: 


inst 


} 


program 


<program> 对 


// 指 人 


6.2.2 ”数据 定义 


鉴于 汇编 语言 中 数据 定义 形式 的 多 样 性 ， 我 们 将 其 公共 首部 ID 提 
取出 来 ， 剩 余 的 尾部 统称 为 <lbtail>。 汇 编 语言 的 数据 定义 有 以 下 几 种 
Da 


纯 标 签 ， 用 于 表示 一 个 地 址 ， 如 “main: ” 


一 
ge 


St 


定义 ， 用 于 表示 立即 数 ， 如 len equ 100。 


3) 数据 ， 用 于 表示 变量 ， 如 x dd 100。 


eas 


包含 times 修 饰 的 数据 ， 用 于 表示 数组 ， 如 array times 100 db 


前 面 两 种 形式 易于 理解 ， 使 用 如 下 产生 式 表示 : 


<lbtail>->COLON | KW_EQU NUM 


后 面 两 种 统称 为 NASM 格 式 的 数据 ， 拥 有 公共 的 尾部 ， 有 差别 在 于 
征 否 使 用 times 进 行 修饰 。 我 们 使 用 非 终结 符 <basetail> 表 示 公 共 的 尾 


部 ， 则 使 用 如 下 产生 式 表 示 NASM 格 式 的 数据 : 


<lbtail>->KW_TIMES NUM <basetail> | <basetail> 


将 以 上 产生 式 合并 ， 得 到 <lbtail> 的 产生 式 .: 


<lbtail>->COLON 
| KW_EQU NUM 
| KwW_TIMES NUM <basetail> 


| <basetail> 


NASM 格 式 的 数据 尾部 <basetail> 包 含 两 个 部 分 ， 用 于 描述 单元 内 
存 大 小 的 KW_DB、KW_DW、KW_DD (我 们 称 为 <len>) ， 以 及 用 于 
摘 述 数据 内 容 的 <value>。 因 此 <basetail> 的 产生 式 描 述 为 : 


<basetail>-><len> <value> 


<len>->KW_DB | KW_DW | Kw_pD 


其 中 <value> 是 使 用 逗号 分 割 的 任意 多 个 常量 (数字 常量 NUM 和 
字符 串 常量 ST) 和 变量 (标识 符 ID) 的 重复 序列 ， 其 产生 式 描述 如 


<value>-><type> <valtail> 


<valtail>->COMMA <type> <valtail> |s 
<type>->NUM | <off> NUM | STR | ID 


<off>->ADD | SUB 


非 终结 符 <type> 表 示 重 复 序 列 中 的 每 一 个 元 素 ，<valtail> 用 于 表达 
的 以 逗号 开始 的 子 序列 。<type> 的 产生 式 中 ， 使 用 <off> 表 达 数 字 


二 
ul 


根据 以 上 产生 式 ， 相 信 不 难 构 造 出 对 应 的 递归 下 降 子 程序 。 


6.2.3 ”指令 


构造 汇编 指令 的 文法 需要 考虑 指令 的 结构 和 操作 数 访问 模式 ， 结 
合 前 面 章节 对 x86 指 令 的 格式 的 描述 ， 我 们 可 以 移 考 虑 指令 的 通用 形 


[© 


二 


操作 符 [ 目 的 操作 数 ][ 源 操作 数 ] 


通用 的 指令 形式 包含 操作 符 、 目 的 操作 数 、 源 操作 数 三 部 分 |， 由 
于 我 们 的 编译 占 没 有 生成 包含 指令 前 缀 的 和 汇编 指令 ， 因 此 这 里 不 考虑 
指令 前 级 的 存在 。x86 指 令 集 的 操作 数 古 可 选 部 分 ， 因 此 可 以 将 x86 指 
令 分 为 三 大 类 : 双 操 作 数 指令 、 单 操作 数 指令 和 无 操作 数 指令 。 使 用 
文法 描述 如 下 。 


<inst>-><doubleop> <oprand> COMMA <oprand> 
| <singleop> <oprand> 


| <noneop> 


<doubleop>->I_Mov | I_CMP | I_SUB | I_ADD 


| I_AND | I_OR | I_LEA 


<singleop>->I_CALL | IINT | I_IMUL | I_IDIV | 
| I_NEG | I_INC | I_DEC 
| I_IMP | I_JE | I_JNE 


| I_SETE | I_SETNE | I_SETG | I_SETGE | I_SETL 


| I_SETLE | I_PUSH | I_POP 


<noneop>->I_RET 


其 中 <doubleop>、<singleop>、<noneop> 分 别 表示 双 操 作 数 指令 探 
作 符 、 单 操作 数 指令 操作 符 和 无 操作 数 指令 操作 符 。 


<oprand> 表 示 任 意 形 式 的 操作 数 ， 其 文法 定义 与 x86 指 令 的 操作 数 
寻 址 模式 息息相关 。 在 x86 指 令 集中 ， 操 作 数 的 来 源 有 三 种 ， 即 立即 
数 、 寄 存 器 和 内 存 ， 分 别 对 应 立即 寻 址 、 寄 存 器 寻 址 和 内 存 寻 址 。 立 
即 数 有 两 种 形式 ， 即 数字 常量 NUM 和 用 于 表示 地 址 或 者 值 的 标识 符 
ID 。 因 此 ，<oprand> 文 法 定义 为 : 


<oprand>->NUM | ID | <reg> | <mem> 


非 终结 符 <reg> 表 示 寄 存 需 操作 数 ， 我 们 定义 的 汇编 语言 只 使 用 了 
8 位 和 32 位 通用 寄存 器 ， 因 此 使 用 的 寄存 器 一 共 是 16 个 。 


<reg>->BR_AL | BR_CL | BR_DL | BR_BL 


| BR_AH | BR_CH | BR_DH | BR_BH 


| DR_EAX | DR_ECX | DR_EDX | DR_EBX 


| DR_ESP | DR_EBP | DR_ESI | DR_EDI 


非 终结 符 <mem> 表 示 内 存 操作 数 ， 根 据 前 面 章 丰 对 x86 指 令 内 存 
寻 址 的 摘 述 ， 内 存 操作 数 的 一 般 形 式 为 : 


<mem> ->LBRAC <addr> RBRAC 


其 中 <addr> 表 示 内 存 地 址 ， 内 存 寻 址 模式 有 直接 寻 址 、 寄 存 侨 间 
址 、 基 址 + 仿 移 寻 址 、 基 址 + 变 址 寻 址 和 基 址 + 变 址 + 偏 移 5 种 寻 址 模 
式 。 除 了 直接 寻 址 模式 的 内 存 地 址 为 立即 数 (或 者 称 为 偏 移 ) 之 外 ， 
其 他 寻 址 模式 都 是 以 寄存 器 名 开始 的 地 址 表达 式 ， 因 此 内 存 操 作 数 的 
文法 定义 为 : 


<addr>->NUM | ID | <reg> <regaddr> 


其 中 <regaddr> 表 示 以 寄存 器 名 开始 的 地 址 表达 式 的 后 半 部 分 ， 如 
果 <regaddr> 为 空 则 表示 寄存 器 间 址 ， 否 则 表示 包含 基 址 寄存 器 的 寻 址 
模式 。 


<regaddr>-><off> <regaddrtail> | : 


由 于 编译 器 没有 生成 包含 基 址 + 变 址 + 偏 移 守 址 的 操作 数 ， 因 此 
<regaddrtail> 表 示 偏 移 或 变 址 寄存 器 。 


<regaddrtail>->NUM | <reg> 


至 此 ， 汇 编 指令 的 文法 构造 完毕 。 接 下 来 与 编译 作 类 似 ， 我 们 和 需 
要 为 语法 分 析 融 的 递归 下 降 子 程序 添加 语义 动作 解析 汇编 语言 语法 模 
块 的 语义 。 


6.3 ”人 符号 表 管 理 


在 编译 人 涡 中 ， 为 了 管理 高 级 语言 中 的 符号 ， 包 括 变量 名 、 玉 数 名 
， 和 需要 构建 符号 表 保 存 符号 名 与 相应 数据 结构 的 对 应 关系。 同样 
地 ， 在 汇编 器 中 ， 仍 需要 实现 对 符号 信息 的 按 名 访问 。 
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如 图 6-5 所 示 ， 汇 编 语言 的 符号 来 源 有 四 种 。 


1) 数据 : 用 于 表示 一 段 内 存 区 域 的 起 始 位 置 ， 一 般 存 在 于 数据 段 
中 。 它 可 能 来 源 于 高 级 语言 中 全 局 变量 (数组 ) 的 定义 ， 也 可 能 来 目 
编译 右 为 常量 字符 捉 生 成 的 名 子 标签 。 


2) 标签 : 用 于 表示 一 个 内 存 地 址 ， 一 般 存 在 于 代码 段 中 。 它 可 能 
来 目 于 高 级 语言 中 的 函数 名 ， 也 可 能 来 目 翻 译 复 合 语句 产生 的 标签 。 


3) 安 : 用 于 表示 一 个 立即 数 ， 相 当 于 为 一 个 数字 常量 起 了 一 个 名 
字 。 我 们 的 编译 和 右 未 生成 安 符号 ， 不 过 由 于 该 类 型 的 符号 在 汇编 语言 
中 较为 第 见 ， 我 们 的 汇编 器 处 理 该 符号 。 


4) 外 部 符号 ， 用 于 表示 引用 的 其 他 文件 的 数据 或 标签 。 一 般 表示 
一 个 外 部 全 局 变量 (数组) 的 名 字 ， 或 外 部 而 数 的 名 字 。 


var dd 100 
@L0 db "hello " 


A 


len equ 236 


mov eax, [ext] 
call fun 


main: 
]mp @L20 
QL20: 


图 6-5 ”汇编 符号 来 源 


6.3.1 数据 结构 


根据 汇编 语言 符号 的 来 源 ， 我 们 定义 了 汇编 符号 的 数据 结构 如 


1 struct lb_record 


2 static int curAddr,; / /表示 已 分 析 的 段 的 长 度 
3 string SegName / /符号 所 在 段 名 

4 string lbName; / /符号 名 

5 bool isEqu， / /是 否 是 宏 

6 bool externed / /是 否 是 外 部 符号 
7 bool global; / /是 否 是 全 局 符号 
8 int addr; / /符号 逻辑 地 址 

9 int times,; // 内 存单 元 重复 次 数 
10 int len; / /单位 内 存 大 小 
11 list<int> cont,; / /符号 内 容 

12 lb_record(string n,bool ex=false); / /标签 或 外 部 符号 
13 lb_record(string n,int v); // 宏 符号 

14 lb_record(string n,int t,int 1,1list<int> c); / /数据 符号 

15 void write()， / /输出 符号 内 容 


16 } 


1) 字段 curAddr 表 示 汇 编 器 语法 分 析 过 程 中 ， 当 前 分 析 的 段 的 长 
度 ， 也 就 是 下 一 个 符号 的 起 始 地 址 《相对 于 段 起 始 地 址 的 偏 移 ) ， 初 
台 值 为 0。 汇 编 语 言 数据 段 中 的 数据 和 代码 段 中 的 指令 都 需要 占用 内 存 
空间 ， 因 此 在 分 析 这 些 数据 时 ， 会 不 断 地 将 其 占用 内 存 的 大 小 累加 到 


该 字段 。 


2) 字段 segName 表 示 符 号 所 在 的 段 名 。 


3) 字段 IbName 表 示 符 号 的 名 称 。 


4) 字段 isEqu 表 示 符 号 是 否 是 安 ， 如 采 是 宏 符 号 ， 该 字段 置 为 


5) 字段 externed 表 示 符 号 是 否 是 外 部 符号 ， 如 果 是 外 部 符号 ， 该 


字段 置 为 true。 


6) 字段 global 表 示 符 号 是 否 是 全 局 种 


段 置 为 true 8 


7) 字段 addr 表 示 符 号 的 逻辑 地 址 ， 如 果 符 号 是 宏 符 号 ， 则 表示 安 
的 值 。 


8) 字段 imes 表 示 数 据 符号 定义 中 内 存单 元 的 重复 次 数 ， 默 认 值 
为 1。 


9) 字段 lan 表示 数据 符号 定义 中 单位 内 存 的 大 小 ， 取 值 为 1、2、4 
| 对 应 db、dw、dd。 


字 节 ， 分 别 


10) 字段 cont 表 示 数 据 符号 定义 中 的 数据 内 容 ， 汇 编 器 将 符号 的 
数据 内 容 按 字 节 拆 分 ， 保 存 到 一 个 整数 链表 内 。 

11) 第 12 行 构造 函数 用 于 创建 标签 符号 或 外 部 符号 ， 参 数 ex 指 定 
符号 是 否 是 外 部 符号 。 默 认 情 况 下 直接 使 用 标签 名 创建 的 符号 对 象 都 
征 汇 编 文 件 内 定义 的 标签 符号 。 


12) 第 13 行 构造 画 数 用 于 创建 宏和 符号， 参数 v 表 示 安 的 值 。 


13) 第 14 行 构造 画 数 用 于 创建 数据 符号 ， 参 数 t 表 示 内 存单 元 重复 
次 数 ， 参 数 1 表示 内 存单 元 大 小 、 参 数 c 表 示 数 据 符 号 的 内 容 。 


14) 画 数 write 输出 标签 在 内 存 中 的 内 容 。 由 于 只 有 数据 符号 占用 
内 存 ， 因 此 该 画 数 只 对 数据 符号 有 效 。 在 目标 文件 生成 音节 会 对 该 画 
数 的 实现 进行 描述 。 


明确 了 符号 数据 结构 的 定义 ， 可 以 很 容易 构建 汇编 右 的 符号 表 数 
据 结 构 。 汇 编 右 的 符号 表 结 构 相 对 人 简单， 本 质 上 是 一 个 以 符号 名 字符 
串 为 键 的 散 列 表 ， 值 元 素 类 型 为 ]b_record* 。 


1 class Table 


{ // 符 号 表 


2 int hasName(string name ) ， / /查询 符号 


3 public: 

4 hash_map<string, lb_record*, string_hash> lb_map; / /符号 散 列表 

5 void addlb(1b_record*p_1b); / /添加 符号 
6 lb_record * getlb(string name); / /获取 符号 
7 void switchSeg(); // 段 切换 
8 void exportSyms( ); / /输出 符号 
10 }; 


符号 表 使 用 hash_map 作 为 内 部 存储 数据 结构 。 


1) 私有 方法 hasName 用 于 查询 符号 是 否 存在 ， 若 符号 存在 则 返回 


一 
Oo 


2) 方法 addlb 癌 符号 表 中 添加 符号 ， 大 被 添加 的 符号 已 经 存在 ， 
需要 进行 特殊 处 理 。 


3) 方法 getb 从 符号 表 中 取出 符号 ， 如 果 符 号 不 存在 ， 则 需要 进行 
特殊 处 理 。 


4) 方法 switchSeg 用 于 同步 当前 符号 所 在 段 的 上 下 文 信息 。 


5) 方法 exportSyms 将 符号 信息 导出 到 elf 可 重 定位 目标 文件 。 


6) 方法 write 用 于 输出 数据 段 的 符号 内 容 。 


汇编 锅 除 了 为 符号 、 符 号 表 建 立 相 应 的 数据 结构 外 ， 还 需要 为 分 
析 的 汇编 指令 建立 对 应 的 数据 结构 。 


1 struct ModRM 


{ 
2 int mod; 
3 int reg; 
4 int rm; 
5 }; 
6 struct SIB 
{ 
7 int scale; 
8 int index; 
9 int base; 
10 }; 
11 struct Inst 
{ 
12 unsigned char opcode,; 
13 int disp; 
14 int imm32; 
15 int dispLen; 
16 


/ 
17 extern ModRM modrm; 
18 extern SIB sib; 
19 extern Inst instr' 


我 们 使 用 三 个 简单 的 全 局 结构 体 对 象 instr、modrm 和 sib 记 录 汇 编 
铬 语法 分 析 过 程 中 得 到 的 指令 及 其 相关 的 ModRM 和 SIB 字 上 段 的 信息 。 


回顾 第 5 章 对 x86 指 令 结构 的 描述 ， 可 以 确定 ModRM 中 ，mod 字 段 
取 值 范围 为 0~3，reg 字 上段 取 值 范 围 为 0~7，rm 字 段 取 值 范 围 为 0~7。 
mod 字 上 段 初 始 值 为 -1， 表 示 不 存在 ModRm 字 7 段 ， 这 是 为 何不 使 用 “位 
域 " 定 义 ModRM 结 构 体 的 原因 (当然 ， 也 可 以 添加 一 个 bool 字 段 专门 
表达 该 信息 ) 。 同 样 地 ，SIB 中 的 scale 字 段 取 值 范围 为 0~3，index 字 段 
取 值 范围 为 0~7，base 字 段 取 值 范 围 为 0~7。scale 字 段 初 始 值 为 -1， 表 
示 不 存在 SIB 字 段 。Inst 记 录 了 指令 中 涉及 的 其 他 字段 ， 操 作 码 opcode 


字段 实际 并 未 使 用 ，disp 表 示 偏 移 字 段 ，imm32 表 示 立 即 数字 段 ， 
dispLen 表 示 偏 移 字 段 的 长 度 ( 取 值 1 或 4 字 广 ) 。 


汇编 右 语 法 分 析 中 的 语义 动作 的 处 理 ， 大 部 分 都 是 基于 以 上 数据 
结构 的 操作 。 由 于 指令 数据 结构 仅仅 记录 分 析 过 程 中 指令 的 信息 ， 是 
无 状态 的 数据 对 象 ， 因 此 在 指令 生成 章 世 再 对 其 相关 操作 详细 曾 述 。 
接 下 来 ， 我 们 重点 分 析 符 号 数据 结构 相关 操作 的 实现 。 


符号 管理 涉及 符号 对 象 的 创建 、 添 加 到 符号 表 以 及 从 符号 表 中 取 
出 符号 的 操作 。 由 于 不 需要 考虑 汇编 语法 的 正确 性 ， 因 此 相对 于 编译 
如 的 符号 表 管理 ， 汇 编 器 的 符号 管理 相对 简单 。 


1. 创 建 符号 对 象 


在 汇编 语言 中 ， 本 地 声明 的 符号 一 般 是 以 标识 符 开 始 的 一 段 声明 
或 定义 。 根 据 语法 分 析 章 市 对 符号 定义 尾部 <lbtail> 的 描述 ， 我 们 在 其 
递归 下 降 子 程序 中 插入 创建 符合 对 象 的 语义 动作 。 


1 void Parser::lbtail 


(string lbName) { 

2 move( ); 

3 switch(look->tag) { 

4 case KwW_TIMES 

5 match(NUM ) ， 

6 basetail(lbName, ((Num*)look)->val); 
7 break; 

8 case KW_EQU 

9 match(NUM); 

10 table.addlb(new lb_record(lbName, ((Num*)look)->val)); 
11 break; 

12 case COLON 

13 table.addlb(new lb_record(lbName)); 

14 break; 

15 default: 

16 basetail(lbName, 1); 

17 


递归 下 降 子 程序 lbtail 根 据 读 入 的 词法 记号 决定 不 同 的 语义 动作 。 
如 果 读 入 词法 记号 times， 则 认为 是 形 如 “array times 100 db 0 的 包含 
times 的 数据 定义 ， 因 此 继续 读 入 重复 次 数 ， 并 将 该 值 取出 ， 与 符号 名 
lbName 一 起 传递 给 basetail 继 续 处 理 。 如 果 读 入 词法 记号 equ， 则 认为 
是 宏 定义 ， 将 宏 的 值 取 出 ， 创 建 符号 对 象 ， 添 加 到 符号 表 。 如 果 读 入 
词法 记号 ，， 则 认为 是 标签 符号 ， 则 直接 创建 符号 对 象 ， 添 加 到 符 
号 表 。 最 后 一 种 情况 表示 不 包含 times 的 一 般 数据 定义 形式 ， 我 们 认为 
times 的 值 为 1， 与 第 一 种 情况 处 理 类 似 。 


1 void Parser::basetail 


(string lbName,int times) { 

2 int l=]en(); 

3 value(lbName, times, 1); 

4 } 

5 int Parser::len 

(){ 

6 move( ); 

7 switch(look->tag) { 

8 case KW_DB 
return 1; 

9 case KW_DW 
return 2; 

10 case KW_DD 
return 4; 

11 default: return 0; 

12 } 

13 


14 void Parser::value 


(string lbName,int times,int len) { 


15 list<int> cont,; 

16 type(cont, len); 

17 valtail(cont, len); 

18 table.addlb(new lb_record(lbName, times,1en,cont)); 
19 } 


20 void Parser::type 


(list<int>& cont, int len) { 


21 move( ); 
22 switch(look->tag) 
23 { 


24 case NUM 


25 cont.push_back(((Num*)look)->val) 


26 break; 

27 case STR 

28 for(int i=0; i < ((Str*)look)->str.size(); i++) { 
29 cont.push_back(((Str*)look)->str[i]) 

30 } 

31 break; 

32 case ID 

33 cont.push_back(table.getlb(((Str*)1look)->str)->addr); 
34 break; 

35 default: 

36 

37 


38 void Parser::valtail 


(list<int>& cont, int len) { 


39 if(match (COMMA 

)) { 

40 type(cont, len); 

41 valtail(cont, len); 
42 } 

43 } 


递归 下 降 子 程序 basetail 的 目的 是 读 取 并 记录 数据 定义 的 内 容 ， 实 
现 稍 微 复杂 ， 本 质 上 是 对 NASM 格 式 数据 定义 的 处 理 。 


首先 它 调用 len 获 取 数 据 单元 的 大 小 ，len 画 数 根据 数据 定义 关键 字 
KW_DB、KW_DW、KW_DD 返 回 数据 内 存单 元 的 大 小 1、2、4 字 节 。 
然后 将 符号 名 、 数 据 内 容重 复 次 数 times 以 及 内 存单 元 大 小 传递 给 value 

函数 继续 处 理 。 


value 函 数 创 建 jist<int> 类 型 的 对 象 cont， 用 于 记录 数据 定义 的 内 
容 。 其 中 type 函 数 处 理 各 种 类 型 的 数据 内 容 ， 包 括 数字 、 字 符 串 和 标 
识 符 地 址 。valtail 函 数 处 理 喜 号 分 隔 的 多 个 数据 内 容 的 情况 。 


在 type 芳 数 中 ， 如 有 果 读 入 词法 记号 为 数字 ， 则 将 数字 的 值 取出 放 
入 cont。 如 采 读 入 的 词法 记号 为 字符 串 ， 则 将 字符 串 内 的 字符 按 顺序 
依次 放 入 cont。 如 有 果 读 入 的 词法 记号 为 标识 符 ， 则 先 从 符号 表 中 取出 
该 符号 对 象 ， 然 后 将 符号 的 地 址 放 入 cont (这 种 情况 会 涉及 符号 不 存 
在 的 情况 ， 稍 后 会 描述 ) 


最 后 value 使 用 处 理 后 的 cont， 与 符号 名 、 数 据 重 复 次 数 以 及 内 存 
单元 大 小 ， 创 建 数据 定义 符号 对 象 ， 并 添加 到 符号 表 。 


2. 添 加 符号 对 象 


从 前 面 摘 述 的 内 容 可 知 ， 每 次 创建 符号 对 象 时 都 会 调用 addlb 把 符 
号 添加 到 符号 表 。 诡 加 符号 的 方法 需要 进行 特殊 处 理 ， 这 十 因为 汇编 
语言 符号 定义 和 使 用 的 特殊 性 一 一 汇编 语言 允许 符号 的 后 置 定义 。 例 
如 汇编 语句 : 


i jmp @L9 

指令 jmp 的 目标 标签 @L0 的 定义 可 以 出 现在 该 指令 之 后 ， 这 样 训 
带 来 一 个 问题 。 由 于 汇编 器 的 词法 分 析 器 是 按 序 扫描 源 程序 的 ， 当 处 
理 到 jmp 指 令 时 ， 会 从 符号 表 内 查询 符号 @L0 的 信息 ， 显 然 此 时 符号 
表 内 并 无 该 符号 的 信息 ， 汇 编 器 会 将 符号 @L0 作 为 外 部 符号 对 待 。 而 
当 词 法 分 析 器 扫描 到 符号 @L0 的 定义 时 ， 才 将 符号 @L0 的 定义 信息 汪 


加 到 符号 表 ， 显 然 符 号 @L0 并 非 外 部 符号 。 类 似 的 情况 还 会 以 如 下 方 
式 出 现 : 


section .text 

mov [var], 100 
section .data 

var dd 0 


一 般 在 汇编 程序 中 ， 会 出 现 数 据 段 “.data” 定 义 在 代码 段 “.text” 之 后 
的 情况 ， 那 么 在 汇编 器 处 理 代码 段 中 的 指令 时 ， 所 有 指令 引用 的 数据 
段 的 符号 都 不 会 在 符号 表 内 存在 。 当然 ， 我 们 的 编译 万 在 生成 汇编 代 
码 时 “刻意 ”将 数据 段 放 在 了 代码 段 的 前 面 ， 但 仍 不 能 避免 符号 定义 出 
现在 符号 使 用 之 后 的 情况 。 


解决 该 问题 的 办 法 是 汇编 器 需要 对 汇编 程序 进行 两 遍 扫 描 。 第 一 
次 扫描 时 ， 汇 编 右 将 引用 的 不 在 符号 表 内 的 符号 作为 外 部 符号 进行 处 
理 ， 添 加 到 符号 表 。 而 当 扫 拉 到 符号 @L0 的 定义 时 ， 使 用 该 符号 的 定 
义 信息 替换 原 有 的 符号 信息 。 到 第 二 次 扫描 时 ， 可 以 确定 所 有 汇编 程 
序 内 定义 的 符号 信息 都 保存 到 了 符号 表 ， 当 再 次 直到 使 用 符号 的 指令 
时 便 可 以 从 符号 表 内 查询 出 该 符号 的 “真正 ”信息 ， 而 那些 仍 为 外 部 符 
号 的 符号 表 项 可 以 确定 是 真正 的 外 部 符号 ， 即 不 在 汇编 程序 内 定义 。 


1 int ScanLop = 0; / /扫描 次 数 


2 void Parser::analyze 


() 苹 
3 if(++scanLop <= 2) { // 两 遍 扫 描 


4 move( ) ; // 读 入 词法 记号 
5 program( ); // 语 法 分 析 


analyze( ); 


实现 汇编 程序 的 两 遍 扫 描 很 简单 ， 我 们 使 用 一 个 全 局 变量 scanLop 
记录 扫描 的 次 数 。 只 要 扫描 次 数 不 大 于 两 次 ， 便 一 直 调 用 program 递 归 
下 降 子 程序 重复 进行 语法 分 析 。 


每 一 笛 语 法 分 析 过 程 中 ， 都 会 调用 addlb 添 加 符号 到 符号 表 。 为 了 
避免 添加 重复 的 符号 ， 因 此 需要 对 其 实现 进行 特殊 处 理 。 


1 void Table::addlb 


(lb_record* p_1b) { / /添加 符号 

2 if(scanLop != 1) { // 只 在 第 一 遍 添加 新 
符号 

3 delete p_]1pb 

4 return; 

5 } 

6 if(hasName(p_1b->lbName)) { // 本 地 符号 覆盖 外 部 符号 
7 delete lb_map[p_1b->lbName]; 

8 lb_map[p_1b->lbName]=p_1b,; 

9 } else { 

10 lb_map[p_1b->lbName]=p_1b,; 

11 } 

12 if(p_l1b->times!=0&&p_1b->segName==".data") { 

13 defLbs.push_back(p_1b); / /记录 包含 数据 的 符 
号 

14 


在 函数 addlb 中 ， 我 们 只 需要 在 第 一 次 扫描 时 间 符 号 表 内 添加 符号 
即 可 ， 如 果 scanLop 不 等 于 1 则 立即 返回 。 如 果 在 添加 符号 时 发 现 该 符 
号 已 经 存在 于 符号 表 ， 则 断定 符号 表 内 保存 的 必然 是 由 getlb 添 加 的 外 
部 符号 (getlb 画 数 在 找 不 到 符号 时 ， 会 自动 创建 一 个 外 部 符号 添加 到 
符号 表 ) ， 这 是 因为 我 们 编译 的 合法 汇编 程序 是 不 会 出 现 符 号 重 定义 
的 。 由 于 被 添加 的 符号 一 定 是 本 地 定义 的 (externed 字 上 段 为 false) ， 所 
以 直接 将 该 符号 的 信息 更 新 到 符号 表 即 可 。 最 后 ， 我 们 将 数据 
段 “data” 内 的 times 不 为 0 (包含 数据 ) 的 符号 按 序 记录 到 defLbs 中 ， 以 
供 后 续 生 成 数据 段 内 容 时 使 用 。 


3. 获 取 符 号 对 象 
获取 符号 对 象 的 方法 getlb 的 实现 与 addlb 是 相关 的 。 


1 lb_record * Table::getlb 


(string name) { 
2 lb_record* ret,; 


3 if(hasName(name)) { / /符号 存在 

4 ret=lb_map[name]; 

5 } else { 

6 ret = new lb_record(name, true); / /创建 外 部 符号 
7 lb_map[name] = ret; / /添加 到 符号 表 
8 } 

9 return ret,; 


在 函数 getb 中 ， 第 一 所 扫 朱 时 ， 如 采 符 号 存在 于 符号 表 ， 则 直接 
返回 。 否 则 将 创建 一 个 外 部 符号 添加 到 符号 表 内 ， 这 是 汇编 器 最 后 一 
种 创建 符号 的 情况 。 当 第 二 思 扫 描 时 ， 无 论 是 什么 类 型 的 符号 ， 总 能 
在 符号 表 内 找到 。 而 且 我 们 可 以 确定 ， 对 于 先 引 用 后 定义 的 本 地 符 
addlb 已 经 在 第 一 直 处 理 中 将 符号 表 内 的 记录 更 新 为 符号 的 真正 定 


>< 


获取 符号 的 语义 动作 出 现 于 以 下 四 种 情况 : 
1) 形 如 : globalx。 

2) 形 如 : ptr ddx。 

3) 形 如 : mov eax, XxX。 

4) 形 如 : mov eax,，[x]。 


第 一 种 情况 声明 x 为 全 局 符号 ， 此 时 和 需要 取出 x 的 符号 对 象 ， 将 
isGlb 设 置 为 tue。 第 二 种 情况 表示 数据 定义 中 引用 了 符号 的 地 址 作为 
数据 内 容 ， 这 个 情况 已 经 在 “创建 符号 对 象 ” 章 和 的 type 递 归 下 降 子 程 
序 中 描述 了 。 后 面 两 种 情况 是 指令 使 用 符号 地 址 作为 立即 数 或 者 内 存 
地 址 (如 果 符 号 是 宏 符 号 ， 则 表示 其 对 应 的 值 ，， 其 调用 代码 会 在 “ 指 


仿生 成 "章节 详细 描述 。 


6.4 表 信 息 生成 


汇编 右 最 终 输出 ELF 格 式 的 可 重 定位 目标 文件 。 第 5 章 接 述 了 ELF 
文件 的 通用 结构 ， 而 在 汇编 右 中 我 们 只 关心 可 重 定位 目标 文件 涉及 的 
ELF 文 件 结构 。 


52 
段 表 字符 串 表 (. shstrtab ) 
(40* 段 表 项 个 数 ) 
(16* 符 号 表 项 个 数 ) 
字符 串 表 (. strtab ) 
(8* 重 定位 表 项 个 数 ) 
(8* 重 定位 表 项 个 数 ) 


6-6 可 重 定位 目标 文件 结构 


如 岁 6-6 所 示 ， 在 可 重 定 位 目标 文件 中 ， 不 会 包含 程序 头 表 。 邦 外 
编 详 亏 生 成 的 代码 不 包 侣 “.bss" 段 ， 因 此 只 需要 考虑 代码 段 和 数据 段 。 
其 中 ， 代 码 段 的 生成 在 指令 生成 章 世 再 详细 摘 述 ， 数 据 段 的 内 容 来 源 
于 符号 表 内 的 数据 定义 标签 。 男 外 ，ELF 文 件 涉 、 段 表 字 符 串 表 、 子 


符 串 表 在 ELF 文 件 结构 确定 后 可 以 计算 得 出 。 因 此 ， 在 可 重 定位 目标 
文件 中 最 关键 的 三 个 段 是 : 段 表 、 符 号 表 和 重 定位 表 ， 这 三 个 表 是 表 
言 已 生成 的 主要 内 容 。 


汇编 郁 在 第 一 过 扫描 时 ， 将 汇编 文件 的 段 信 息 导 出 为 段 表 项 ， 十 
充 到 段 表 。 第 二 所 扫描 时 ， 将 符号 信息 导出 为 符号 表 项 ， 填 充 到 符号 
表 ， 并 在 产生 重 定位 的 位 置 生成 重 定位 项 ， 填 充 重 定位 表 。 


6.4.1 ”上段 表 信息 


汇编 语言 使 用 section 天 键 字 声明 段 起 始 位 置 ， 下 一 个 段 声 明 或 文 
件 结束 位 置 为 段 终 止 位 置 ， 中 间 部 分 属于 section 声 明 的 段 内 容 。 因 此 


在 汇编 器 语法 分 析 过 程 中 ， 可 以 在 section 声 明 或 文件 结束 时 处 理 段 信 
二 


/JU 


1 void Parser::program() 

2 

3 switch(look->tag)t{ 

4 case END: / /文件 结 
束 ， 停 止 语法 分 析 

5 table. switchSeg 

(); 

6 return; 

7 case KW_SEC: // 段 声明 
8 match(ID); 

9 table. switchSeg 

(); 

10 break; 

11 case KW_GLB: / /全 局 符号 
声明 

12 match(ID); 

13 break; 

14 case ID: / /数据 定义 
15 lbtail(); 

15 break; 

16 default: // 指 令 
17 inst(); 

18 } 

19 program( ); 


函数 switchSeg 在 段 声 明 位 置 和 文件 结束 位 置 处 理 段 信息 。ELEF 文 
件 段 表 项 中 最 关键 的 字段 是 段 名 、 段 基 址 和 段 大 小 。 由 于 汇编 语言 段 
内 包含 的 数据 定义 或 汇编 指令 的 大 小 是 可 以 确定 的 ， 因 此 通过 第 一 遍 
扫描 可 以 确定 段 表 项 内 的 信息 。 其 中 ， 段 表 名 由 section 关 键 字 声 明 的 
标识 符 决 定 ， 段 表 大 小 由 段 内 的 数据 大 小 决定 ， 段 表 的 偏 移 由 上 个 段 
结束 位 置 的 对 齐 位 置 决 定 (默认 情况 下 ， 上 段 仿 移 的 默认 按照 4 字 节 大 小 
对 齐 ) 


section .text ~~、 

mov eax,ebx ss 

Inc eax ~~ 
section .data——----—-—--. 
buffer times 10 db 0 
EOF 


图 6-7” 段 表 信息 生成 


如 图 6-7 所 示 ， 代 码 段 “text" 段 偶 移 默认 从 0 字 节 开始 ， 段 内 含有 两 
条 汇编 指令 ，mov 指 令 的 一 种 二 进 制 编码 为 0x8bc3 《参考 5.1 世 的 内 
容 ) ， 大 小 为 2 字 市 ，inc 指 令 的 二 进 制 编码 为 0x40， 大 小 为 1 字 市 ， 
此 “.text”* 段 大 小 为 3 字 节 。 数 据 段 “.data” 段 偏 移 从 “.text”* 结 束 位 置 3 字 节 
开始 ， 按 照 4 字 节 对 齐 后 为 4 字 节 ,，“.data” 段 内 定义 了 10 字 节 的 buffer， 
因此 “.data” 段 大 小 为 10 字 六。 


1 int dataLen=0; 
2 string curSeg=""; 
3 void Table::switchSeg 


() { 


4 if(scanLop==1) { 

5 dataLen+=(4-dataLen%4 )%4; 

6 obj.addSshdr(curSeg,1b_record: :curAddr ) ; 
7 dataLen+=]b_record: :curAddr 

8 } 

9 curSeg=((Str*)look)->toSstring(); 

10 lb_record: :curAddr=0; 

11 } 


在 函数 switchSeg 中 ， 只 有 当 第 一 遍 扫描 时 (scanLop=1 时 ) ， 汇 
编 器 才 会 计算 段 偏 移 和 大 小 ， 并 添加 段 信息 到 可 重 定位 目标 文件 的 段 
表 内 。 另 外 ， 全 局 变量 dataLen 记 录 了 上 一 个 段 的 结束 位 置 偏 移 。 每 次 
调用 addShdr 添 加 段 表 项 前 ， 都 会 将 dataLen 按 照 4 字 三 对 齐 ， 然 后 将 
dataLen 累 加 curAddr (每 个 段 扫 描 结束 后 ， 该 变量 保存 了 段 的 大 小 ) 
形成 新 的 段 结束 位 置 偏 移 。 最 后 ， 汇 编 器 将 下 一 个 段 名 curSeg 设 置 为 
当前 section 声 明 的 标识 符 名 称 ， 并 将 段 内 偏 移 地 址 curAddr 重 置 为 0 继 
续 处 理 下 一 个 段 。 


画 数 addShdr 的 功能 是 向 目标 文件 的 段 表 内 添加 一 个 段 表 项 。 为 了 
方便 对 ELF 进 行 操作 ， 我 们 封装 了 一 个 简单 的 ELE 文 件 类 。 


1 struct RelItem 


{ 
2 string segName; // 重 定位 的 
目标 段 名 
3 Elf32_Rel*rel; // 重 定位 信 
息 
4 string relName; // 重 定位 符 
号 名 
5 }; 
6 


7 class ELf file 


{ 


8 public: 


11 


12 


13 


14 


Elf32_Ehdr ehdr,; 


Vector<E1Lf32_Phdr*>phdrTab ; 


hash_map<string, Elf32 Shdr*, string_hash> shdrTab 


vector<string>shdrNames,; 


hash_map<string,Elf32_ Sym*,string_hash>symTab; 


vector<string>symNames; 


vector<RelItem*>relTab; 


string shstrtab; 


string strtab,; 


// 文 件 头 


/ /程序 头 表 


// 段 表 


// 段 名 顺序 


// 符 号 表 


// 符 号 名 顺序 


// 重 定位 表 


// 段 表 字 符 


其 中 RelItem 类 是 对 重 定位 表 项 的 简单 封装 ，ELEF file 表示 整 个 
ELF 文 件 ，Elf32 * 表 示 所 有 ELF 文 件 结构 类 型 (定义 见 Linux 系 统 


的 “/usr/include/elf.h” 文 件 ) 


1 void Elf_ file::addShdr 


( 
2 
3 
4 
5 
6 
7 
8 


3 


PPPAPPAPO 
QUOIl 上 户口 


String sh_name,int size) { 


int off=size of (Elf32,._Ehdr)+dataLen; 
if(sh_name==".text") { 
addShdr (sh_name, SHT_PROGBITS, 
SHF_ALLOC|SHF_EXECINSTR, 
0,off, size, 0,0,4,0); 


else if(sh_name==".data") { 
addShdr (sh_name, SHT_PROGBITS, 
SHF_ALLOC|SHF_WRITE, 
0,off,size, 0,0,4,0); 


void Elf_file::addSshdr 


string sh_name, 
Elf32_Word sh_type, 
Elf32_Word sh_flags, 


。 addShdr 函 数 便 是 对 shdrTab 字 段 的 操作 。 


19 Elf32_Addr sh_addr, 


20 Elf32_0Off sh_offset, 

21 Elf32_Word sh_size, 

22 Elf32_Word sh_link, 

23 Elf32_Word sh_info, 

24 Elf32_Word sh_addralign, 
25 Elf32_Word sh_entsize 
26 ) { 

27 Elf32_Shdr*sh=new Elf32_Shdr(); 
28 sh->sh_name=0; 

29 sh->sh_type=sh_type; 

30 sh->sh_flags=sh_flags,; 

31 sh->sh_addr=sh_addr; 

32 sh->sh_offset=sh_offset,; 

33 sh->sh_size=sh_size; 

34 sh->sh_link=sh_link; 

35 sh->sh_info=sh_info; 

36 sh->sh_addralign=sh_addralign; 
37 sh->sh_entsize=sh_entsize; 

38 shdrTab[sh_name]=sh; 

39 shdrNames.push_back(sh_name); 
40 } 


第 1~13 行 定义 的 函数 addShdr 根 据 段 名 决定 段 表 项 其 他 属性 的 值 。 
比如 第 3~7 行 处 理 代码 段 “.text* 时 ， 将 段 属性 设置 为 SHT_PROGBITS 表 
示 该 段 保存 了 程序 数据 ， 设 置 为 SHF_ALLOC 表 示 段 加 载 时 需要 分 配 
内 存 空 间 ， 设 置 为 SHF_EXECINSTR 表 示 该 段 具有 可 执行 权限 。 


第 15~40 行 定义 的 函数 addShdr 构 造 Elf32_Shdr 对 象 ， 将 该 对 象 保存 
到 段 表 shdrTab， 并 记录 段 表 名 的 顺序 到 shdrNames。 另 外 ， 段 表 项 的 
sh_name 字 段 暂 时 初始 化 为 0， 是 因为 目前 还 未 添加 段 表 字 符 串 表 
段 <.shstrtab”， 段 表 名 在 该 段 内 的 偏 移 尚未 确定 ， 只 有 在 组 装 可 重 定位 
目标 文件 时 才能 最 终 确 定 sh_name 的 值 。 


这 里 所 说 的 符号 表 是 ELF 文 件 的 从 号 表 ， 而 非 6.3 市 所 揪 述 的 符号 
表 数 据 结构 ， 不 过 这 二 着 之 间 是 有 关联 的 。 符 号 表 数 据 结构 记录 了 汇 


函数 名 等 。 而 ELF 文 件 的 符号 表 保 存 的 符号 信息 是 为 链接 硼 、 调 试 郁 、 


心 全 局 符号 即 可 。 不 过 为 了 尺 可 能 保持 ELF 符 号 表 信 息 的 完整 性 ， 我 们 
也 将 局 部 符号 保存 到 ELF 符 号 表 内 。 因 此 ， 可 以 位 单 认为 ELF 文 件 的 符 
号 表 是 汇编 硼 符 号 表 的 一 个 子 集 ， 只 不 过 前 着 是 在 二 进 制 层面 质 述 符 


号 ， 后 者 是 在 汇编 语言 层面 描述 符号 。 


由 于 汇编 右 在 第 二 裔 扫 揪 时 已 经 将 符号 的 信息 全 部 收集 到 符号 表 
内 ， 因 此 我 们 只 需要 稍 加 处 理 ， 便 可 以 得 到 ELF 文 件 的 符号 表 。ELF 文 
件 符 号 圾 项 中 最 关键 的 字段 是 符号 名 、 符 号 所 在 段 、 符 号 段 内 俩 移 和 


符号 类 型 (全 局 /局 部 ) 。 


如 图 6-8 所 示 ， 符 号 main 被 扫描 时 可 以 从 全 局 变量 curSeg 中 取出 当 
前 段 的 名 称 “.text*， 从 lb_record: : curAddr 取 出 符号 在 段 内 的 偏 移 地 址 
0， 并 根据 global 声 明 将 main 符 号 设置 为 全 局 符号 。 而 对 于 符号 
whileExit1 是 在 第 二 饥 扫描 开始 时 才 确 定 是 本 地 符号 的 ， 它 在 “text" 段 
内 的 偏 移 地 址 是 22。 另 外 ， 符 号 fun 是 引用 的 外 部 符号 ， 不 能 确定 它 所 


在 的 段 。 而 对 于 外 部 符号 ， 我 们 统一 设 定 为 全 局 符号 ， 这 是 因为 链接 
器 会 对 全 局 符号 进行 符号 解析 ， 而 忽略 局 部 符号 的 内 容 。 


section .+ext 


global main 


符号 名 | 所 在 段 | 段 内 偏 移 | 类 型 
je whileExit1 


1 有 main Global 
ca NN ---~- fun Global 
whileExit1 : whileE xi+1 Local 


glb Global 


section.data Global 
global glb -一 
glb dd 100 


global var 。 
var r dd Le 


图 6-8 符号 表 信 息 生 成 


1 void Table::exportSyms 


— 
~ 


for(hash_ map<string, lb_record*, string_hash> 
::iterator lb_i=1lb_map.begin(); 
lb_i!=lb map.end();1lb_ i++) { 

lb_record *1r=1lb_i->second; 

if(!1r->isEqu) 
obj.addSym(1r); 


‘OO0NOROND ~ 


c 


汇编 器 两 志 扫 描 结 束 后 ， 会 调用 exportSyms 将 符号 导出 到 ELF 符 号 
表 。 由 于 安 符 号 并 不 是 有 意义 的 符号 ， 因 此 不 会 被 导出 。addSym 函 数 
会 根据 符号 对 象 的 内 容 构造 ELF 符 号 表 项 Elf32_Sym， 添 加 到 符号 表 


symTlab ° 


1 void Elf_ file::addSym 


(lb_record*]b) { 

2 Elf32_Sym*sym=new El1f32_Sym(); 

3 sym->st_name=0; // 
符号 名 

4 sym->st_value=1b->addr; // 符 号 
地 址 

5 sym->st_size=lb->times*]b->len*]b->cont.size(); / /符号 大 小 

6 if(1lb->gloab1) { // 
全 局 符号 

7 sym->st_info=ELF32_ST_INFO(STB_GLOBAL, STT_NOTYPE); 

8 } else { 

/ /局 部 符号 

9 sym->st_info=ELF32_ST_INFO(STB_LOCAL, STT_NOTYPE); 

10 } 

11 sym- 

st_other=0; 

12 if(1b->externed) { // 
外 部 符号 

13 sym->st_shndx=STN_UNDEF,; 

14 } else { 

/ /本 地 符号 

15 sym->st_shndx=getSegIndex(1b->segName); 

16 } 

17 symTab[l1b->lbName]=sym; 

18 symNames .push_back(1b->lbName); 

19 } 


在 函数 addSym 中 ， 对 Elf32_Sym 对 象 的 设置 如 下 : 


第 3 行 ， 将 stLname 设 置 为 0， 这 十 因 为 符号 表 依赖 的 字符 串 
表 “.strtab” 还 未 添加 ， 只 有 在 组 萎 可 重 定 位 目标 文件 时 才能 最 终 确 定 
st_name 的 值 和 


第 4 行 ， 将 st_value 设 置 为 符号 地 址 addr， 即 符号 的 段 内 偏 移 地 址 ， 
对 于 外 部 符号 ， 该 值 默认 为 0。 


第 5 行 ， 计 算 符 号 大 小 st_size， 即 times、len 与 符号 内 容 cont 长 度 的 
乘积 。 


第 6~10 行 ， 处 理 符 号 的 全 局 /局 部 类 型 。 我 们 并 不 关心 st_info 的 
TYPE 字 段 ， 因 此 默认 设置 为 STT_NOTYPE。 对 于 全 局 符号 ，st_info 的 
BIND 字 上 段 值 为 STB_GLOBAL， 对 于 局 部 符号 ，st_info 的 BIND 字 上 段 值 
为 STB_LOCAL。 最 后 ， 使 用 ELF32_ST_INFO 宏 将 TYPE 与 BIND 字 段 
合并 为 st_info 的 最 终 值 。 


第 12~16 行 处 理 外 部 /本 地 符号 。 对 于 外 部 符号 ， 符 号 所 在 段 对 应 段 
表 项 的 索引 st_shndx 十 不 确定 的 ， 因 此 设置 为 STN_UNDEEF 。 而 对 于 本 
地 符号 ， 则 取出 符号 所 在 段 名 segName， 并 使 用 getSegIndex 画 数 获取 该 
段 名 在 段 名 列表 segNames 中 的 索引 ， 设 置 为 st_shndx 的 值 。 


最 后 ， 将 符号 保存 到 符号 表 symTab， 并 将 符号 名 插入 符号 名 列表 


symNames ° 


6.4.3” 重 定位 表 信 息 


目标 文件 的 重 定 位 表 是 汇编 带 与 链接 器 关系 中 最 重要 的 一 环 ， 链 
接 万 正 是 读 取 目 标 文 件 的 重 定 位 表 信 息 对 目标 文件 进行 链接 的 工作 。 
前 面 在 介绍 目标 文件 符号 表 生 成 的 时 候 ， 每 个 符号 表 项 存储 的 符号 的 
值 都 是 符号 在 所 在 段 内 的 偏 移 地 址 ， 而 非 真 实 的 虚拟 地 址 ， 而 链接 器 
会 将 这 些 偏 移 地 址 转换 为 虚拟 地 址 。 目 标 文件 的 符号 地 址 不 古 真实 虚 
拟 地 址 将 会 市 来 一 个 问题 ， 那 些 引 用 该 符号 的 数据 定义 或 指令 的 内 容 
并 不 是 有 效 的 。 正 因 如 此 ， 汇 编 器 需要 将 这 些 信息 收 集 到 重 定位 表 
中 ， 告 诉 链 接 器 哪些 数据 或 指令 需要 按照 怎样 的 方式 进行 修正 。 


前 面 介绍 过 汇编 语言 内 的 符号 大 致 分 为 数据 、 标 签 、 宏 以 及 外 部 
符号 四 大 类 ， 而 本 质 上 讲 ， 汇 编 语言 的 符号 其 实 融 两 种 ， 即 表示 数据 
地 址 的 符号 和 表示 指令 地 址 的 符号 ， 宏 符号 不 会 出 现在 目标 文件 内 ， 
而 外 部 符号 无 外 乎 数据 和 标签 两 种 符号 。 对 于 符号 的 引用 者 来 说 ， 存 
在 两 种 场景 : 本 地 引用 ， 即 引用 符号 的 位 置 和 符号 定义 位 置 在 同一 个 
文件 的 同一 段 内 ; 外 部 引用 ， 即 引用 符号 的 位 置 和 符号 定义 位 置 不 在 
同一 文件 内 或 在 同一 文件 的 不 同 段 内 。 之 所 以 强调 是 否 同一 段 内 而 非 
同一 文件 内 ， 是 因为 链接 器 工作 时 会 调整 所 有 上 段 的 位 置 ， 而 不 管 这 些 
段 古 否 在 同一 个 文件 内 。 


在 汇编 代码 中 所 有 出 现 的 对 数据 和 标签 符号 的 引用 都 有 可 能 需要 
进行 重 定位 ， 根 据 符号 类 型 和 引用 场景 可 以 分 为 四 种 情况 进行 考虑 : 


1) 本 地 引用 数据 符号 : 这 种 情况 常见 的 场景 是 全 局 变量 定 
义 “char*str="hello"; ”生成 的 汇编 代码 。 


@LO db "hello" 
str dd @LO 


虽然 符号 “@L0” 和 “str* 在 同一 个 “.data” 段 内 ， 但 是 “str* 存 储 的 
是 “@L0” 的 偏 移 地 址 ， 链 接 器 处 理 后 ,，“@L0” 的 地 址 被 修正 为 虚拟 地 
址 ， 而 “str* 存 储 的 数据 内 容 也 需要 改变 为 “<@L0” 对 应 的 虚拟 地 址 ， 
此 “str* 的 数据 内 容 需 要 被 重 定 位 。 


2) 外 部 引用 数据 符号 : 这 种 情况 常见 的 场景 是 对 全 局 变量 的 访 
问 ， 比 如 “x=1; ”生成 的 汇编 代码 。 


mov [x], 1 


与 情况 1 类 似 ， 链 接 器 处 理 后 ,，“x” 的 地 址 被 修正 为 虚拟 地 址 ， 那 
么 mov 指 令 内 保存 的 x 的 地 址 需要 更 正 为 对 应 的 虚拟 地 址 ， 
此 “mov” 指 令 的 内 容 需 要 重 定位 。 不 管 x 是 否 是 本 地 文件 的 全 局 变量 还 


征 通过 “extern" 声 明 的 外 部 变量 ， 都 需要 这 样 的 处 理 。 


3) 本 地 引用 标 釜 符号 :这 种 情况 常见 的 场景 是 调用 本 地 声明 的 画 
数 ， 比 如 “fun () ; "生成 的 汇编 代码 。 


call fun 
fun: 


我 们 知道 ，“call* 指 令 的 内 容 保 存 的 是 被 调用 函数 的 地 址 相对 
于 “call” 指 令 的 下 一 条 指令 的 地 址 的 偏 移 ， 假 设 “fun” 的 定义 束 在 “call” 指 
令 之 后 ， 那 么 “call” 指 令 内 保存 的 相对 地 址 束 是 0。 链接 器 处 理 
后 ,，“fun” 的 地 址 被 修正 为 虚拟 地 址 。 然 而 “call* 指 令 和 “fun” 符 号 定义 部 
征 在 “text" 段 内 ， 无 论 链接 大 如 何 调整 <.text" 的 位 置 , “call" 指 令 
和 “fun” 的 符号 地 址 的 相对 位 置 都 不 会 发 生 改变 ， 即 “call” 指 令 的 内 容 不 
会 发 生变 化 ， 也 整 无 须 对 “call” 指 令 进行 重 定位 。 类 似 的 情况 还 会 发 生 
在 函数 内 部 复合 语句 生成 的 跳 较 指令 jmpMJcc 指 令 中 ， 这 些 指令 也 是 不 
需要 重 定位 的 。 


4) 外 部 引用 标签 符号 : 这 种 情况 常见 的 场景 是 调用 外 部 文件 声明 
的 函数 ， 还 是 "fun () ; ”生成 的 汇编 代码 。 


call fun 


只 不 过 这 次 *fun" 符 与 是 未 知 符号 ， 虽 然 我 们 可 以 推测 该 符号 也 是 
在 “.text" 段 内 ， 但 是 它 并 不 是 本 地 的 “text" 段 。 链 接 右 处 理 时 会 把 同名 
的 段 进 行 合 并 ， 但 十 即便 如 此 ， 我 们 也 无 法 计算 “call” 指 令 与 “fun” 符 号 


地 址 的 相对 位 置 。 因 此 ， 链 接 絮 处 理 后 ，“call” 指 令 内 的 相对 地 址 需 
根据 “fun” 的 虚拟 地 址 重新 定位 。 


根据 以 上 分 析 ， 我 们 可 以 得 出 结论 : 凡是 对 数据 符号 的 引用 都 需 
要 重 定位 ， 而 对 标签 符号 的 引用 ， 只 有 外 部 引用 时 才 需 要 重 定位 。 


1 void Parser: :type 


(list<int>& cont, int len) { 


2 move( ) ， 

3 switch(look->tag) { 

4 case NUM: 

5 cont .push_ back(((Num*)look)->val) 

6 break; 

7 case STR: 

8 for(int i=0; i < ((Str*)look)->str.size(); i++) { 
9 cont.push_back(((Str*)look)->str[i]) 

10 } 

11 break; 

12 case ID: 

13 if(scanLop==2 && !l]r->isEqu) { 

14 obj.addRel 

( 

15 curSeg,1b_record: :curAddr+cont.size()*len, 
16 name, R_386_32); 

17 } 

18 cont.push_back(table.getlb(((Str*)look)->str)->addr); 
19 break; 

20 default: 

21 

22 } 


递归 下 降 子 程序 type 人 处理 数据 符号 的 值 ， 当 它 扫 描 到 数据 符号 的 值 
是 ID 时 ， 如 果 当 前 是 汇编 器 的 第 二 遍 扫描 ， 且 扫描 到 的 符号 不 是 宏 符 
号 ， 便 调用 addRel 将 生成 的 重 定位 项 添加 到 重 定位 表 。 判 断 是 否 是 第 二 
忆 扫 描 是 保证 所 有 的 符号 信息 已 经 保存 到 汇编 絮 符 号 表 内 ， 而 判断 是 
否 是 安 符 号 则 是 安 符号 的 值 会 被 直接 写 入 数据 符号 的 内 容 ， 不 存在 对 
符号 的 引用 ， 因 而 不 需要 重 定位 。 


不 日 


部 


处 理 完 数据 段 内 符号 引用 情况 ， 接 下 来 处 理 代码 段 内 的 符号 引 
用 。 我 们 定义 的 汇编 语言 的 代码 段 内 对 符号 的 引用 有 两 种 情况 ， 即 将 
符号 的 值 作 为 立即 数 或 内 存 地 址 。 下 面 分 别 讨 论 这 两 种 情况 。 


1 int Parser::getRegCode 


(Tag reg, int len) { 

2 int code = 0; 

3 switch (len) { 

4 case 4: 

5 code = reg - BR_AL; 
6 break; 

7 case 8: 

8 code = reg -DR_EAX; 
9 break; 

10 

11 return code; 

12 } 

13 

14 lb_record*relLb 

=NULL,; // 重 定位 的 标签 

15 


16 void Parser::oprand 


(int &regNum,int&type,int&len) { 


17 move(); 

18 switch(look->tag) { 

19 case NUM: // 立 即 数 
20 type=IMMEDIATE.; 

21 instr.imm32=( (Num*)look)->val; 

22 break; 

23 case ID: / /立即 数 
24 type=IMMEDIATE， 

25 string name=((Id*)Jook)->name 

26 lb_record* lr=table.getlb(name); 

27 instr.imm32=1lr->addr; 

28 if(scanLop==2 && !lr->isEqu) { 

29 relLb=1r; 

30 } 

31 break; 

32 case LBRAC: // 内 存 寻 址 
33 type=MEMORY ; 

34 mem( ) ， 

35 break 


36 case SUB: // 负 立即 数 


37 type=IMMEDIATE; 


38 match(NUM); 

39 instr.imm32=-( (Num*)look)->val; 

40 break; 

41 default: / /寄存 器 操 
作 数 

42 type=REGISTER， 

43 Jen=reg() 

44 int regCode = getRegCode(look->tag, len); / /寄存 器 编码 
45 if(regNum++!=0) { // 双 寄存 器 
操作 数 

46 modrm.mod=3， 

47 modrm.rm=regCode; // 源 寄存 器 
存 入 

rm 

48 } else { 

49 modrm.reg=regCode; / /目标 寄 存 
器 操作 数 存 入 

reg 

50 } 

51 } 

52 } 


递归 下 降 子 程序 operand 处 理 汇编 指令 的 操作 数 ， 参 数 regNum 记 录 
和 令 中 已 经 识别 的 寄存 器 操作 数 的 个 数 ，type 记 录 操 作 数 的 类 型 (立即 
数 操作 数 一 JIMMEDIATE、 寄 存 侣 操作 数 一 REGISTER、 内 存 操 作 数 一 
MEMORY) ，len 记 录 操 作 数 的 长 度 (8 位 或 32 位 ) 。 


1) 第 19~22 行 处 理 数字 常量 立即 数 操作 数 。 首 先 将 操作 数 类 型 设 
为 IMMEDIATE， 然 后 取出 数字 第 量 的 值 存 入 指令 的 imm32 字 段 。 

2) 第 23~31 行 处 理 符号 立即 数 操 作 数 。 首 先 将 操作 数 类 型 设 为 
IMMEDIATE， 然 后 根据 符号 名 从 符号 表 中 取出 符号 对 象 ， 将 符号 地 址 
写 入 指令 的 imm32 字 段 。 由 于 该 处 是 对 符号 的 引用 ， 因 此 需要 产生 重 定 


位 项 。 我 们 将 符号 对 象 记 杂 到 全 局 变量 relLb 中 ， 指 令 生成 阶段 会 读 取 
该 变量 的 值 ， 进 行 重 定位 项 的 处 理 。 


3) 第 32~35 行 处 理 内 存 操作 数 。 首 先 将 操作 数 类 型 设 为 
MEMORY， 然 后 调用 mem 子 程序 处 理 内 存 操作 数 的 情况 。 


4) 第 36~40 行 处 理 负数 立即 操作 数 。 


5) 第 41~50 行 处 理 寄 存 器 操作 数 。 首 先 将 操作 数 类 型 设置 为 
REGISTER， 然 后 调用 getRegCode 计 算 寄 存 器 在 指令 中 的 编码 。 当 第 一 
次 识别 到 寄存 名 操作 数 时 ， 将 寄存 名 编码 记 杂 到 指令 的 reg 了 字段 内 。 第 
二 次 识别 到 寄存 咱 操 作 数 时 ， 将 指令 的 mod 字 段 设 为 3 表示 指令 是 双 寄 
存 器 操作 数 指令 ， 将 指令 的 rm 字段 设置 为 第 二 次 识别 寄存 器 的 编码 。 
之 所 以 这 样 设置 ， 是 因为 我 们 在 指令 生成 时 使 用 的 双 寄 存 器 操作 数 指 
令 的 形式 为 reg 字 段 作为 日 标 寄存 全 ，rm 子 段 作为 源 寄存 器 。 


1 void Parser::addr 


() i 
2 move( ) ， 
3 Switch(token) { 
case number : // 直 
接 寻 址 
5 modrm.mod=0,; 
6 modrm.rm=5， 
7 instr.setDisp( (Num*)look)->val,4); 
8 break; 
9 case ident: // 直 
接 寻 址 
10 modrm.mod=0; 
11 modrm.rm=5， 
12 name=( (Id*)look)->name; 
13 lb_record* lr=table.getlb(name); 


14 instr.setDisp(1lr->addr, 4); 


15 if(scanLop==2 && !Lr->isEqu) { 
16 relLb=1r; 


} 
18 break; 
19 default: /7 管 


20 int type=reg(); 
21 regaddr (token, type); 


D 
D 
rc 


递归 下 降 子 程序 addr 处 理 内 存 操作 数 的 内 存 地 址 。 


1) 第 4~8 行 处 理 数字 常量 的 内 存 地 址 。 首 先 将 指令 的 mod 字 上 段 设 为 
0，rm 字 上段 设 为 5， 表 示 操 作 数 使 用 32 位 偏 移 直接 寻 址 。 调 用 指令 的 
setDisp 函 数 保 存 内 存 地 址 的 值 和 长 度 。 


2) 第 9~18 行 处 理 符号 内 存 地 址 。 与 数字 常量 内 存 地 址 处 理 方式 类 
似 ， 仍 是 设置 指令 的 mod 字 段 为 0%，rm 字 段 为 5。 然 后 根据 符号 名 从 符 
号 表 内 取出 符号 对 象 ， 将 符号 对 象 的 地 址 和 地 址 长 度 设 置 为 指令 内 。 
由 于 该 处 是 对 符号 的 引用 ， 因 此 需要 产生 重 定位 项 。 我 们 将 符号 对 象 
记录 到 全 局 变量 relLb 中 ， 指 令 生成 阶段 会 读 取 该 变量 的 值 ， 进 行 重 定 
位 项 的 处 理 。 


3) 第 19~21 行 处 理 寄存 器 寻 址 的 情况 。 


1 bool Generator::processRel 


(int type) { 
2 if(scanLop==1| |relLb==NULL) { 
relLb=NULL; 
return false; 


OW 


} 
bool flag=false; 


7 if(type==R_386_32 


) { / /绝对 地 址 重 定 


佘 


8 obj.addRel 


(curSeg,1b_record: :curAddr, 
9 relLb->lbName, type); 


10 flag=true; 

11 

12 else if(type==R_386_PC32 

) { // 相 对 地 址 重 定位 

13 if(relLb->externed) { // 外 部 跳 转 
14 obj.addRel 


(curSeg,1b_record: :curAddr, 
15 relLb->lbName, type); 


16 flag=true; 
17 } 

18 } 

19 relLb=NULL; 

20 return flag; 

21 } 


在 指令 生成 阶段 ， 会 调用 processRel 处 理 可 能 的 重 定位 项 。 参 数 
type 表 示 调 用 者 传 入 的 重 定 位 类 型 ， 对 于 一 般 的 直接 引用 符号 地 址 的 指 
令 会 传人 R_386_32 表 示 绝 对 地 址 重 定位 ， 而 对 于 函数 调用 或 者 跳 转 指 
令 会 传 入 R_386_PC32 表 示 相 对 地 址 重 定 位 。 


1) 第 2~5 行 表示 只 在 第 二 遇 扫 描 时 进行 重 定位 项 的 生成 ， 并 且 要 
求 relLb 不 能 为 空 。relLb 记 录 了 指令 中 需要 重 定 位 的 符号 对 象 ， 由 于 我 
们 的 编译 万 不 会 生成 引用 多 个 符号 的 指令 ， 因 此 使 用 一 个 relLb 变 量 记 
了 永生 一 种 简化 的 做 法 。 


2) 第 6~11 行 处 理 绝对 地 址 重 定位 。 通 过 调用 addRel 函 数 ， 将 当前 
段 名 (被 重 定 位 的 段 )、 当 前 地 址 〈 被 重 定位 位 置 的 段 内 偏 移 ) 、 重 


定位 符号 名 〈 重 定位 的 符号 ) 和 重 定位 类 型 传 入 ， 生 成 对 应 的 重 定 位 
表 项 。 


3) 第 12~18 行 处 理 相 对 地 址 重 定位 。 首 先 判断 符 号 relLb 是 否 是 外 
部 符号 ， 对 于 本 地 符号 则 不 需要 生成 重 定位 项 。 因 为 如 果 符 号 是 数据 
段 内 的 符号 ， 我 们 处 理 的 汇编 代码 不 包含 对 数据 段 内 符号 的 相对 地 址 
引用 。 如 条 符号 是 代码 段 内 的 符号 ， 则 表示 符号 和 符号 的 引用 位 置 在 
同一 个 段 内 ， 根 据 前 面 对 符 号 引用 的 讨论 ， 不 需要 生成 重 定 位 项 。 最 
后 ， 仍 调用 addRel 函 数 生成 重 定位 项 。 


1 RelItem* Elf_file::addRel 


(string seg, 
2 int addr,string 1b,int type) { 
RelItem*rel=new RelItem(seg,addr,1b,type); 
relTab.push_back(rel); 

return rel; 


OPW 


函数 addRel 的 实现 很 简单 ， 即 根据 传 入 的 重 定位 段 、 重 定位 地 址 、 
重 定位 符号 和 重 定位 类 型 信息 生成 重 定位 项 对 象 RelItem， 然 后 存 入 重 
定位 表 relTab 即 可 。 其 中 RelItem 的 rel 字 段 为 Elf32-Rel 类 型 ， 该 类 型 的 r- 
offset 设 为 addr 的 值 ，rinfo 字 段 设 为 ELF32-R-INFO (O，type) ， 即 只 
保存 重 定位 类 型 信息 。 在 目标 文件 生成 阶段 会 自动 填充 rinfo 字 段 中 的 
重 定位 符号 信息 ， 再 将 该 对 象 的 信息 输出 为 ELF 文 件 格式 的 重 定位 段 的 
内 容 。 之 所 以 这 样 做 的 原因 是 重 定位 项 内 涉及 了 段 名 和 符号 名 的 引 
用 ， 只 有 段 表 和 符号 表 生 成 后 才能 确定 这 些 字段 在 重 定位 表 内 的 值 。 


为 了 更 好 地 理解 重 定 位 表 生 成 的 流程 ， 我 们 使 用 一 个 简单 的 例子 
说 明 这 一 点 ， 如 图 6-9 所 示 。 


je whileExit1 
call fun 
whileExif+1: 
mov eax,[ext] 


mov [var],eax 


section .data 
glb dd 100 
var dd1 


图 6-9 重 定 位 表 信息 生成 


为 了 位 化 代码 结构 ， 我 们 省 略 了 全 局 符号 的 global 声 明 指令 。 图 6-9 
中 展示 了 前 面 讨论 的 重 定位 信息 的 来 源 。 


1) 同文 件 段 间 符 号 引用 最 典型 的 是 文件 内 代码 段 的 指令 引用 了 文 
件 内 数据 段 的 符号 ， 比 如 a.s 的 代码 段 的 mov[var]，eax 指 令 引 用 了 a.s 的 
数据 段 内 符号 var。 汇 编 器 处 理 该 指令 时 ，var 从 号 地 址 的 段 内 偏 移 是 30 
(mov 指 令 操作 码 0x88 占 用 1 字 节 ，ModR/M 字 段 0x05 占 用 1 字 节 ) ， 于 
是 根据 重 定位 段 “.text*、 重 定位 位 置 30、 重 定位 符号 “var* 和 重 定位 类 型 
生成 重 定位 项 。 数 据 段 内 的 符号 引用 情形 类 似 ， 不 再 痪 述 。 


2) 一 个 文件 的 代码 段 的 指令 引用 了 另 一 个 文件 数据 段 的 符号 ， 比 
如 文件 a.s 代 码 段 的 mov eax，[ext] 指 令 引 用 了 文件 b.s 数 据 段 定义 的 全 局 


号 ext。 汇 编 器 处 理 该 指令 时 ，ext 符 号 地 址 的 段 内 偏 移 是 24 (mov 指 
令 操 作 码 0x8a 占 用 1 字 节 ，ModR/M 字 段 0x05 占 用 1 字 节 ) ， 于 是 根据 重 
定位 段 “.text*、 重 定位 位 置 24、 重 定位 从 号 “ext* 和 重 定 位 类 型 生成 重 定 


位 项 。 


A 
en 


3) 一 个 文件 的 代码 段 的 指令 引用 了 男 一 个 文件 代码 段 的 符号 ， 比 
如 文件 a.s 代 码 段 的 call fun 引 用 了 文件 b.s 代 码 段 定义 的 全 局 符号 fun。 汇 
编 器 处 理 该 指令 时 ，fun 符 号 相对 地 址 的 段 内 偏 移 是 18 (call 指 令 操作 码 
0xe8 占 用 1 字 节 ) ， 于 是 根据 重 定位 段 “.text*、 重 定位 位 置 18、 重 定位 
符号 “fun” 和 重 定位 类 型 生成 重 定 位 项 。 


4) 最 后 ， 同 文件 段 内 符号 相对 引用 不 会 产生 重 定位 项 ， 比 如 je 
whileExit1 对 whileExit1 局 部 符号 的 3 引用， 因为 je 指令 和 whileExit1 的 相 
对 地 址 永远 是 固定 的 5 字 广 。 


经 过 前 面 的 讨论 ， 我 们 明确 了 ELF 文 件 内 最 关键 的 三 个 表 数 据 结构 
段 表 、 符 号 表 、 重 定位 表 的 构造 方式 。 根 据 这 三 个 表 结 构 ， 我 们 可 以 
构造 出 ELF 可 重 定位 目标 文件 的 “骨架 *。 不 过 在 汇编 融 中 ， 除 了 构造 目 
标 文件 的 结构 信息 ， 还 有 一 个 重要 的 功能 尚未 讨论 ， 即 根据 第 5 章 对 
x86 指 令 结构 的 描述 将 汇编 代码 翻译 为 二 进 制 代码 ， 这 便 是 “指令 生 


成 "章节 需要 讨论 的 内 容 。 


6.5 ”指令 生成 


在 “语法 分 析 ” 草 节 中 ， 我 们 描述 了 汇编 语言 指令 的 文法 。 我 们 将 
待 处 理 的 汇编 指令 分 为 三 类 : 双 操 作 数 指令 、 单 操作 数 指令 和 零 操 作 
数 指令 。 其 中 双 操 作 指 令 包 含 mov、cmp、add、sub、and、or 和 lea 共 7 
种 指令 ， 单 操作 数 指令 包含 cal 、int、imul、idiv、neg、inc、dec、 
jmp、je、jne、sete、setne、setg、setge、setl、setle、push 和 pop 共 18 种 
和 令 ， 无 操作 数 指令 包含 ret 共 1 种 指令 。 指 令 生 成 的 目的 便 是 将 这 些 
日 令 翻译 为 它们 的 二 进 制 表示 。 


汇编 絮语 法 分 析 器 的 inst 递 归 下 降 子 程序 识别 所 有 的 指令 ， 然 后 将 
站 令 的 信息 记录 下 来 ， 最 后 将 指令 的 信息 交 给 指令 生成 侨 转 化 为 二 进 
制 代码 。 


1 enum op_type 


£ / /操作 数 类 型 
2 NONE, 
3 IMMEDIATE, 
4 REGISTER, 
5 MEMORY 
6 } 
7 
8 void Parser::inst 
() 区 
9 instr.init 
(); / /初始 化 指令 信息 
10 move( ); 
11 int len=0; // 


操作 数 长 度 


12 if(look->tag>=I_MOV 


&&10o0k->tag<=I_LEA 


) { // 双 操作 数 指令 

13 op_type d_type=NONE,s_type=NONE,; // 
操作 数 类 型 

14 int regNum=0; // 
寄存 器 个 数 

15 oprand(regNum,d_type, len); 

16 match(COMMA); 

17 oprand(regNum,s_type, len); 

18 generator .gen2op 


(look->tag,d_type,s_type, len); 
19 }else if(look->tag>=I_CALL 


&&10o0k->tag<=I_POP 


){ /7 单 操作 数 指令 


20 op_type type=NONE, regNum=0 
21 oprand(regNum, type, Len) ， 
22 generator .geniop 


(look->tag, type, len); 


23 }else if(look->tag==I_RET 
) 革 // 零 操作 数 指令 
24 generator .gen0op 


(look->tag); 
25 } 


26 } 


1) 第 9 行 对 指令 对 象 instr 初 始 化 ， 其 中 比较 关键 的 是 将 modrm 的 
mod 和 sib 所 Jscale 字 上 段 初始 化 为 1， 表示 未 初始 化 状态 。 


2) 第 12~18 行 处 理 双 操作 数 指令 。 根 据 词 法 记号 标签 的 定义 ， 在 
LMOV 和 LILLEA 之 间 的 标签 之 间 的 都 征 双 操作 数 指令 。 当 于 程序 
operand 识 别 指令 的 两 个 操作 数 后 ， 会 将 操作 数 的 信息 保存 在 instr、 


modrm 和 sib 字 段 内 。 最 后 调用 指令 的 gen2op 函 数 生 成 双 操 作 数 指令 的 
二 进 制 代码 。 


3) 第 19~22 行 处 理 单 操作 数 指令 。 根 据 词 法 记号 标签 的 定义 ,在 
LCALL 和 L_ POP 之 间 的 标签 之 间 的 都 是 单 操作 数 指令 。 当 子 程序 
operand 识 别 指令 的 唯一 的 操作 数 后 ， 会 将 操作 数 的 信息 保存 在 instr、 
modrm 和 sib 子 段 内 。 最 后 调用 指令 的 gen1lop 芳 数 生成 单 操作 数 指令 的 
二 进 制 代码 。 


4) 第 23~25 行 处 理 零 操 作 数 指 令 。L_RET 是 唯一 的 零 操 作 数 指 
令 ， 通 过 调用 gen0op 函 数 生 成 雯 操作 数 指令 的 二 进 制 代码 。 


接 下 来 ， 我 们 详细 描述 指令 生成 器 对 每 种 指令 的 处 理 细 广 。 


6.5.1 双 操 作 数 指令 


在 我 们 实现 的 汇编 秀 中 ， 只 需要 处 理 mov、cmp、add、sub、 
and、or 和 lea 这 7 种 双 操 作 数 指令 即 可 。 这 些 指令 有 很 大 的 相似 之 处 ， 
除了 lea 指 令 稍微 特殊 外 ， 其 他 指令 的 操作 数 几 乎 可 以 是 任何 类 型 的 合 
法 操作 数 ， 即 目的 操作 数 可 以 是 寄存 亏 操 作 数 、 内 存 操作 数 ， 源 操作 
数 可 以 是 立即 数 、 寄 存 器 操作 数 和 内 存 操作 数 。 男 外 ， 考 虑 到 指令 的 
操作 数 的 长 度 可 以 是 8 位 或 32 位 〈 不 考虑 16 位 操作 数 ) ， 因 此 每 种 双 操 
作 数 指令 都 有 很 多 的 组 合 。 不 过 我 们 只 考虑 以 下 操作 数 的 组 合 (我 们 
使 用 OP 表示 任意 的 操作 码 ) 。 


1)OP reg8, reg8 
2)0P reg8, mem8 
3)0OP mem8, reg8 
4)OP reg8, imm8 
5)OP reg32, reg32 
6)0OP reg32, mem32 
7)OP mem32, reg32 
8)0OP reg32, imm32 


其 中 组 合 1、2 我 们 统一 使 用 指令 “OP rm8，reg8” 生 成 ， 组 合 5、6 
统一 使 用 指令 “OP rm32，reg32” 生 成 。 最 后 ， 对 于 包含 立即 数 的 指令 


4、8， 我 们 只 处 理 目的 操作 数 是 寄存 如 的 情况 ， 而 不 考虑 目的 操作 数 
征 内 存 的 情况 。 


使 用 一 个 操作 码 表 可 以 方便 我 们 在 代码 上 的 处 理 。 


1 static inti 2opcode 


[][2][4]={ 
2 // 


8 位 操作 数 

| 32 位 操作 数 
3 A/rir rrrmlrmr r,imm| rr rrrmlrmr r,imm 
4 {{0x8a,Ox8a,Ox88,0xb0}, {0x8b,0x8b,0x89,0xb8}}, //mov 
5 {{0x3a,QOx3a,Ox38,0x80}, {0x3b,0Ox3b,0x39,0x81}}, //cmp 
6 {{0x2a,QOx2a,Ox28,0x80}, {0x2b,0x2b,0x29,0x81}}, //sub 
7 {{0x02,0x02,0x00,0x80}, {0x03,0x03,0x01,0x81}}, //add 
8 {{0x22,0x22,0x20,0x80}, {0x23,0x23,0x21,0x81}}, //and 
9 {{0x0a,QOx0a,Ox08,0x80}, {0xOb, OxOb, Ox09, Ox81}}, //or 
10 {{0x00, Ox00, Ox00, Ox00}, {0x8d, Ox8d, Ox00, Ox00}} //lea 
11 }; 
12 


13 int Generator::getOoOpCode 


(Tag tag, op_type des _t, 


14 op_type src_t, int len) { 

15 

16 int index = 0; 

17 switch (src_t) 

18 case IMMEDIATE: index = 3; break 

19 case REGISTER: index = 2*(des-t!=REGISTER; break; 
20 case MEMORY: index = 1; break; 

21 } 

22 return i 20opcode[tag-I_MOV][len!=8][index]; 

23 } 


1) 第 1~11 行 定义 的 数组 i_2opcode 记 录 了 我 们 需要 处 理 的 双 操作 
数 指令 操作 数组 合 对 应 的 操作 码 。 数 组 的 每 一 行 表示 一 种 指令 对 应 的 
操作 码 ， 每 一 行内 的 第 一 个 子 数 组 表示 8 位 操作 数 指令 的 操作 码 ， 第 二 
个 子 数 组 表示 32 位 操作 数 的 操作 码 。 每 个 子 数 组 都 是 一 个 四 元 组 ， 分 
别 表 示 双 寄存 器 操作 数 、 寄 存 器 -内 存 操作 数 、 内 存 -寄存 器 操作 数 、 
寄存 器 -立即 数 操作 数 对 应 的 操作 码 。 


2) 画 数 getOpCode 根 据 操 作 码 和 操作 数 类 型 以 及 长 度 计 算 操作 码 
的 二 进 制 表示 。 对 比 汇编 器 Tag 内 对 标签 定义 的 顺序 不 难 理解 操作 码 的 
计算 方式 。 


对 双 操 作 数 指令 的 处 理 流程 为 : 


1 void Generator::gen2op 


人 tag, op_type des_t, 
op_type src_t, int lJen) { 
; int opcode= getopcode 


a des_t, src_t, len); 
switch(modrm， mod) { 


5 case -1: { 

//reg32 <- imm32 

6 if(tag == I_MOV) { 

//mov 

7 opcode += modrm.reg; 
8 } else { 


//cmp sub add and or 
9 int reg_codes[]={7, 5, 0, 4, 1}; 


10 modrm.mod=3; 

11 modrm.rm=modrm.reg; 

12 modrm.reg=reg_codes[tag-I_CMP]; 
13 } 

14 

15 writeBytes(opcode,1); 

16 if(tag!=I_MOV) writeModRM( ) ， 

17 processRel 

(R_386_32); // 重 定位 
18 writeBytes(instr.imm32,1en); 

19 break; 

20 } 

21 case 0: 


//[reg32] <->reg 
22 writeBytes(opcode, 1); 


23 writeModRM( ) ， 

24 if(modrm.rm==5) { 
//[disp32] 

25 processRel 
(R_386_32); // 重 定位 
26 instr .writeDisp(); 
27 }else if(modrm.rm==4) { 
28 writeSsSIB(); 

//sib 

29 

30 break; 

31 case 1: 


//[reg32+disp8] <->reg 

32 writeBytes(opcode, 1); 

33 writeModRM( ) ， 

34 if(modrm.rm==4) writeSIB() ; 
35 instr .writeDisp(); 


/ /操作 码 补充 字段 


/ /操作 码 


//modrm 


/ /立即 数 


36 break ， 

37 case 2: 

//[reg32+disp32]< -> reg 

38 writeBytes(opcode, 1); 


39 writeModRM( ) ， 

40 if(modrm.rm==4) writeSIB() ， 
41 instr .writeDisp(); 
42 break; 

43 case 3: 

//reyg <-> reg 

44 writeBytes(opcode, 1); 
45 writeModRM( ) ， 

46 break 

47 } 

48 } 


1) 第 3 行 首 先 调用 getOpCode 获 取 指 令 操作 码 的 二 进 制 表 示 


opcode ° 


2) 第 4~47 行 根据 modrm 的 mod 字 段 对 不 同 的 操作 数 类 型 组 合 进行 
处 理 。 其 中 mod 为 -1 时 表示 指令 中 有 立即 数 操作 数 ， 其 他 情况 分 别 对 
应 x86 指 令 的 ModR/M 的 mod 字 段 的 本 身 舍 义 (参考 第 5 草 对 ModR/M 字 
段 的 描述 ) 


3) 第 5~20 行 处 理 源 操 作 数 是 32 位 立即 数 (为 了 简化 起 见 ， 将 8 位 
立即 数 扩展 为 32 位 ) 、 目 的 操作 数 是 32 位 寄存 器 的 情况 。 除 了 lea 指 
令 ， 其 他 双 操作 数 指令 都 有 可 能 使 用 32 位 立即 数 。 其 中 ，mov 指 令 的 
操作 码 定义 为 "b8+reg"， 即 0xb8 是 mov 指 令 的 组 属性 操作 码 ，reg 保 存 
了 目的 寄存 部 的 编号 。 在 递归 下 降 子 程序 oprand 对 寄存 硕 操 作 数 的 处 
理 中 ， 将 目的 寄存 器 编号 保存 到 modrm.reg 字 段 ， 源 寄存 器 编号 保存 到 
modrm.rm 字 段 《如果 有 的 话 ) ， 因 此 mov 指 令 的 操作 码 应 该 是 
0xb8+modrm.reg 的 值 。 虽 然 我 们 使 用 modrm.reg 字 段 保 存 了 目的 寄存 需 


的 编号 ， 但 是 mov 指 令 内 并 不 包含 ModR/M 字 段 ， 这 里 仅仅 是 使 用 它 保 
存 寄存 器 的 编号 而 已 。 


对 于 其 他 指令 ， 操 作 码 定义 为 “81lreg”， 即 0x81 是 指令 的 组 属性 操 
作 码 ，reg 即 modrm.reg 字 段 。 对 于 指令 cmp、sub、add、and、or， 对 应 
的 操作 码 定 义 分 别 为 “81/7”、“81/5”、“81/0”、“81/4”、“81/1”。 这些 指 
令 是 包含 ModR/M 字 段 的， 其 中 modrm.mod=3、modrm.reg 保 存 了 以 上 
操作 码 的 补充 码 、modrm.rm 字 段 保 存 了 目的 寄存 器 的 编号 (原来 的 


modrm.reg 字 上 段 ) 


最 后 ， 调 用 writeBytes 输 出 操作 码 opcode， 并 除了 mov 指 令 外 ， 调 
用 writeModRM 输 出 modrm 字 段 。 在 输出 立即 数 instrimm32 之 前 ， 我 们 
需要 调用 processRel 处 理 可 能 存在 的 重 定位 项 。 这 是 因为 每 次 输出 操作 
时 ， 我 们 都 会 目 动 宗 加 当前 段 的 逻辑 地 址 lb record: : curAddr， 重 定 
位 项 内 需要 记录 该 地 址 作为 重 定位 位 置 的 段 内 偏 移 。 在 输出 立即 数 之 
前 处 理 可 能 的 重 定位 项 保证 了 重 定 位 位 置 恰好 是 立即 数 在 段 内 的 偏 移 
地 址 。 


4) 第 21~30 行 处 理 了 内 存 操作 数 是 寄存 器 间 址 的 情况 。 这 里 首先 
直接 输出 操作 码 opcode 和 modrm 字 段 。 然 后 处 理 modrm.rm 字 段 为 5 的 情 
况 ， 它 表示 内 存 操 作 数 使 用 32 位 偏 移 直 接 寻 址 。 类 似 地 ， 在 调用 
writeDisp 输 出 偏 移 字段 之 前 ， 仍 和 需要 调用 processRel 处 理 可 能 的 重 定位 


项 。 最 后 处 理 modrm.rm 字 段 为 4 的 情况 ， 它 表示 指令 包含 sib 字 段 ， 
此 调用 writeSIB 输 出 sib 字 段 。 


5) 第 31~36 行 处 理 内 存 操作 数 是 8 位 基 址 寻 址 的 情况 。 这 里 仍 是 
直接 输出 操作 码 opcode 和 modrm 字 段 ， 然 后 处 理 modrm.rm 字 段 为 4 时 输 
出 sib 字 段 ， 最 后 输出 偏 移 字段 。 此 处 不 需要 重 定位 项 的 处 理 ， 因 为 我 
们 的 编译 右 生 成 的 基 址 寻 址 指令 的 偏 移 都 是 数字 稍 量 ， 不 会 产生 重 定 


使 


6) 第 37~42 行 处 理 内 存 操 作 数 是 32 位 基 址 寻 址 的 情况 。 这 里 的 处 
理 流 程 与 8 位 基 址 寻 址 完全 相同 ， 函 数 writeDisp 会 目 动 根据 偏 移 字段 的 
长 度 正 确 输出 。 


7) 第 43~46 行 处 理 双 寄存 器 操作 数 的 情况 。 这 种 情况 最 简单 ， 直 
接 输 出 操作 码 opcode 和 modrm 字 段 即 可 。 


这 里 ， 我 们 列 出 输出 函数 writeBytes、writeModRM、writeSIB 和 


writeDisp 的 定义 。 


到 
2 按照 小 端 顺序 ( 


]ittle endian) 输出 指定 长 度数 据 


3 ]en=1 :输出 第 
4 字 节 

4 ]en=2 :输出 第 
要 守节 


5 ]en=4 :和 输出 第 


1, 2,3,4 字 节 

6 */ 

7 void Generator: :writeBytes 
(int value,int len) 


{ 
lb_record: :curAddr+=len,; // 计 算 
地 址 


9 if(scanLop==2) { 
10 fwrite(&value, len,1,fout); 
11 } 
12 } 
14 void Generator: :writeModRM 
人 
15 if(modrm.mod!=-1) { 
16 int byte = (modrm.mod << 6) + 
17 (modrm.reg << 3) + modrm.rm; 


19 writeBytes(byte,1); 
} 


23 void Generator: :writeSIB 


{ 
24 if(sib,.scale!=-1) { 
25 int byte = (sib,.scale << 6) + 
26 (Sib,index << 3) + sib.base; 
28 writeBytes(byte,1); 
} 
30 } 


32 void Inst::writeDisp 


33 if(dispLen) { 


34 generator .writeBytes(disp,dispLen); 
35 dispLen=0,， 

36 } 

37 } 


1) 国 数 writeBytes 在 汇编 器 的 第 二 裔 扫描 时 ， 根 据 参数 len 的 长 度 
将 value 按 照 小 字 节 序 写 入 输出 流 fout 指 向 的 临时 文件 中 。 无 论 汇 编 器 
征 第 几 遇 扫描 ，writeBytes 都 会 正 角 素 加 lb_record: : curAddr 的 值 ， 这 
样 融 可 以 保证 每 次 扫描 都 能 处 理 到 正确 的 段 内 侦 移 以 及 段 大 小 。 


2) 函数 writeModRM 和 writeSIB 分 别 将 modrm 和 sib 对 象 拼 接 为 单 


字 节 ， 并 调用 writeBytes 进 行 输 出 。 


3) 函数 writeDisp 根 据 偏 移 字段 的 长 度 dispLen， 调 用 writeBytes 将 
偏 移 字 7 段 disp 正 确 输 出 。 


6.5.2” 单 操 作 数 指令 


相 比 于 双 损 作 数 指令 ， 单 操作 数 指令 的 处 理 不 具有 一 般 性 。 需 要 
处 理 的 单 操 作 数 指令 有 call 、int、imul、idiv、neg、inc、dec、jmp、 
je、jne、sete、setne、setg、setge、setl、setle、push 和 pop 共 18 种 指 


令 。 类 似 地 ， 我 们 构造 一 个 简单 的 单 操作 数 指令 的 操作 码 表 。 


1 static int i 1opcode 


[]=t{ 

2 //call, int, imul, idiv, neg, inc, dec, jmp 
3 Oxe8, QOxcd, QOxf7, Oxf7, QOxf7, Ox40, Ox48, Oxe9, 
4 //je, jne 

5 Ox84, QOx85, 

6 //sete, setne,setg, setge,setl, setle 

7 Ox94, QOx95, QOx9f, Ox9d, QOx9c, Oxg9e, 

8 //push pop 

9 Ox50, Ox58 

10 }; 


需要 说 明 的 是 ， 指 令 je、jne 、sete 、setne 、setg 、setge 、set]l 、setle 
的 操作 码 实际 为 双 字 节操 作 码 ， 这 里 省 略 了 转移 操作 码 0x0f。 对 于 其 
他 指令 ， 根 据 操作 数 的 不 同 ， 操 作 码 也 会 发 生变 化 ， 这 里 只 列举 了 某 
一 种 操作 数 情况 下 的 操作 码 ， 有 具体 的 操作 码 的 值 在 处 理 时 会 详细 说 
明 o 


针对 单字 市 指令 的 处 理 如 下 。 


1 void Generator::geniop 


人 tag,int opr_t,int len) { 
int opcode = = i 1iopcode[tag-I_CALL]; 
3 if(tag==I_CALL||tag>=I_JMP&&tag<=I_JNE) { 


4 
5 
// 转 义 操作 码 


6 
7 
/ /操作 码 


8 


(R_386_PC32) ? 


9 
10 
址 


11 
// 相 对 地 址 


// 转 义 操作 码 


18 
/ /操作 码 


19 
//modrm 


/ /操作 码 


23 
立即 数 


} else 


} else 


} else 


} else 


if(tag!=I_CALL&&tag!=I_JMP) { 
writeBytes(QOxoOf, 1); 


writeBytes(opcode); 


int addr = processRel 


// 重 定位 


[hl 
Wh 


lb_record: :curAddr : instr.imm32; 


int pc = 1b_record::curAddr+4; 


writeBytes(addr-pc, 4); 


if (tag>=I_SETE&&tag<=I_SETLE) { 
modrm.mod=3; 
modrm.rm=modrm.reg; 

modrm.reg=0; 


writeBytes(OxOf, 1); 


writeBytes(opcode,1); 


writeModRM( ) ， 


if (tag==I_INT) { 
writeBytes(opcode, 1); 


writeBytes(instr.imm32,1); 


if (tag==I_PUSH) { 
if(opr_t==IMMEDIATE) opcode=0Xx68 ; 
else opcode += modrm.reg,; 


writeBytes(opcode, 1); 


if(opr_t==IMMEDIATE) 
writeBytes(instr.imm32, 4); 


if(tag==I_INC| |tag==I_DEC) { 
if(len==1){ 


opcode=0xfe; 


//Ppc 地 


// 


// 


34 int reg_ codes[]={0, 1}; 
/ /操作 码 补充 字段 


35 modrm.mod=3; 

36 modrm.rm=modrm.reg; 
37 modrm.reg=reg_codes[tag-I_INC]; 
38 } else { 

//reg32 

39 opcode += modrm.reg; 
40 } 

41 

42 writeBytes(opcode, 1); 

/ /操作 码 

43 if(len==1) writeModRM( ); 
//modrm 

44 } else if(tag==I_NEG) { 

45 if(len==1) opcode=0xf6; 

46 modrm,mod=3， 

47 modrm.rm=modrm.reg; 

48 modrm.reg=3; 

49 

50 writeBytes(opcode, 1); 

/ /操作 码 

51 writeModRM( ) ， 

//modrm 

52 } else if(tag==I_POP) { 

53 opcode+=modrm.reg; 

54 writeBytes(opcode, 1); 

/ /操作 码 

55 } else if(tag==I_IMUL||tag==I_IDIV) { 
56 int reg_codes[]={5, 7}; 


/ /操作 码 补充 字段 


57 modrm.mod=3; 

58 modrm.rm=modrm.reg; 

59 modrm.reg=reg_codes[tag-I_IMUL]; 
60 

61 writeBytes(opcode, 1); 

/ /操作 码 

62 writeModRM( ) ， 

//modrm 

63 } 

64 } 


1) 第 3~11 行 处 理 跳 转 类 指令 的 情况 。 之 所 以 将 跳 转 类 指令 (使 用 
相对 地 址 的 指令 ) 统一 处 理 ， 因 为 它们 涉及 重 定 位 项 的 处 理 。 我 们 需 
要 处 理 的 跳 转 类 指令 包含 call、 jmp 、 je、 jne 共 4 种 指令 。 对 于 Jcc 指 


令 ， 在 输出 操作 码 opcode 之 前 ， 需 要 先 输出 转 义 操作 码 0x0f。 接 下 来 
便 是 输出 相对 地 址 ， 而 相对 地 址 的 值 与 指令 是 否 需要 重 定位 是 相关 

的 。 首 先 调用 processRel 人 处 理 可 能 存在 的 相对 地 址 重 定 位 ， 如 果 重 定位 
成 功 ， 则 说 明 立 即 数字 段 instr.imm32 保 存 的 目标 地 址 无 效 ， 那 么 我 们 
将 目标 地 址 设置 为 当前 段 内 偏 移 Ib record: : curAddr， 和 否则 正常 使 用 
instrimm32 作 为 目标 地 址 。 变 量 pc 保存 了 下 一 条 指令 的 地 址 ， 即 
lb_record: : curAddr+4， 最 终 目 标 地 址 addr 与 pc 的 差 值 束 是 指令 中 相 
对 地 址 的 值 。 


我 们 发 现 ， 按 照 上 述 处 理 的 流程 ， 当 发 生 相 对 地 址 重 定位 时 ， 指 
令 中 的 相对 地 址 为 常量 值 -4。 而 未 发 生 相 对 地 址 重 定位 时 ， 指 令 中 的 
相对 地 址 仍 是 原本 的 相对 地 址 。 之 所 以 这 样 楷 珊 地 处 理 是 为 了 与 链接 
堪 重 定 位 操作 保持 一 臻 《参考 第 7 章 关 于 重 定位 操作 的 描述 ) ， 在 重 定 
位 时 会 读 取 指 令 中 保存 的 相对 地 址 的 值 ， 然 后 根据 该 值 计 算 最 终 链 接 
后 的 相对 地 址 。 


2) 第 12~20 行 处 理 SETcc 类 指令 。 这 类 指令 也 是 双 字 市 操作 码 ， 
且 用 modrm.reg 字 段 仆 充 操作 码 ， 操 作 码 定义 为 “SETcc/0”。 其 中 
modrm.mod 字 段 为 3、modrm.reg 字 上段 为 0、modrm.rm 字 上 段 为 寄存 器 操 
作 数 的 编写。 输出 指令 时 ， 首 先 输出 转 义 操作 人 码 ， 然 后 输出 opcode 和 


modrm 字 段 。 


3) 第 21~23 行 处 理 int 指 令 。 该 指令 是 单字 节操 作 码 指令 ， 操 作 数 


是 8 位 立即 数 。 因 此 直接 输出 opcode 和 instrimnm32 低 8 位 即 可 。 


4) 第 24~30 行 处 理 push 指 令 。 我 们 使 用 的 push 指 令 的 操作 数 有 两 
类 : 32 位 立即 数 和 32 位 寄存 器 。 当 操作 数 为 立即 数 时 ，push 指 令 的 操 
作 码 是 0x68， 操 作 码 后 紧 跟 32 位 立即 数 。 当 操作 数 为 寄存 器 时 ，push 
指令 操作 码 为 组 属性 操作 码 ， 使 用 寄存 器 编号 进行 补充 ， 操 作 码 定义 
为 "50+reg”。 单 操作 数 指令 操作 码 表 保存 的 push 指 令 操作 码 正 是 此 
值 ， 因 此 输出 操作 码 前 需要 将 opcode 素 加 操作 数 寄存 器 的 编码 值 。 


5) 第 31~43 行 处 理 inc 和 dec 指 令 。 我 们 只 使 用 了 指令 操作 数 为 寄 
存 絮 的 情况 ， 不 过 该 类 指令 的 操作 码 定义 与 操作 数 长 度 相关 。 当 操作 
数 为 32 位 寄存 器 时 ， 操 作 码 定义 为 “inc/dec+reg”， 即 使 用 操作 数 寄存 
器 编号 补充 操作 码 ， 组 属性 操作 码 的 值 见 操作 人 码 表 。 当 操作 数 为 8 位 寄 
存 器 时 ，inc 指 令 的 操作 码 定义 为 “fe/0”"，dec 指 令 的 操作 码 定义 
为 *fe/1”， 即 使 用 modrm.reg 补 充 操 作 码 ， 因 此 需要 输出 0xfe 和 modrm 字 


段 。 


6) 第 44~52 行 处 理 neg 指 令 。neg 指 令 操作 码 定义 也 与 操作 数 长 度 
相关 。 当 操作 数 长 度 为 32 位 寄存 器 时 ， 操 作 码 定义 为 “f7/3”。 当 操作 数 
长 度 为 8 位 寄存 器 时 ， 损 作 码 定义 为 “f6/3”。 因 此 输出 组 属性 操作 码 
后 ， 还 要 和 输出 modrm 字 段 。 


7) 第 52~54 行 处 理 pop 指 令 。pop 指 令 操 作 数 为 32 位 寄存 器 时 ， 操 
作 码 定义 为 “58+reg"， 即 使 用 寄存 天 操作 数 编码 补充 操作 码 。 


8) 第 55~62 行 处 理 imul 和 idiv 指 令 。 这 两 个 指令 使 用 32 位 寄存 器 操 
作 数 时 ， 使 用 相同 的 组 属性 操作 码 ， 操 作 码 定义 分 别 
为 7/5” 和 “f7/7”。 因 此 需要 输出 0xf7 和 modrm 字 段 。 


6.5.3” 零 操 作 数 指令 


最 后 讨论 零 操 作 数 指令 ， 该 类 指令 我 们 只 处 理 一 种 指令 ret， 指 令 
二 进 制 编码 为 0xc3。 


1 static int i Qopcode 


[]= 

2 

3 //ret 

4 Oxc3 

5 }; 

6 

7 void Generator: :gen0op 


9 tag) { 
int opcode=i Qopcode[tag-I_ RET]; 
-| writeBytes(opcode, 1); / /操作 码 


10 } 


6.6 ”目标 文件 生成 


谍 编 右 两 衣 扫 摘 结 束 后 ， 段 表 人 信息、 符号 表 信 息 和 重 定位 表 信息 
已 经 保存 到 ELF 文 件 对 象 中 ， 代 码 段 的 内 容 被 放 入 一 个 临时 文件 内 ， 
而 数据 段 的 内 容 可 以 直接 从 汇编 器 的 符号 表 中 取出 包含 数据 的 符号 输 
出 即 可 。 最 终 和 汇编 器 会 根据 图 6-6 描 述 的 ELF 文 件 结构 ， 将 ELF 文 件 
涉 、 代 码 段 、 数 据 段 、 段 表 字 符 串 表 、 段 表 、 符 号 表 、 字 符 串 表 、 重 
定位 表 的 内 容 按 序 输出 ， 生 成 合法 的 可 重 定位 目标 文件 。 


整个 过 程 分 为 两 大 阶段 。 


1) ELF 文 件 结构 组 装 。 根 据 扫 描 得 到 ELF 文 件 信 息 ， 完 善 ELF 文 
件 结 构 的 数据 。 包 括 文 件 头 各 个 字段 的 值 、 串 表 的 内 容 以 及 引用 串 表 
内 的 字符 串 偏 移 信 息 (如 上段 表 项 的 段 名 字段 sh_name、 符 号 表 项 的 符 


号 名 字段 st name) 、 重 定位 表 项 等 。 


2) ELF 文 件 结构 输出 。 输 出 文件 头 、 代 码 段 、 数 据 段 、 段 表 字 符 
串 表 、 段 表 、 符 号 表 、 字 符 串 表 、 重 定位 表 的 内 容 。 任 何 两 个 文件 结 
构 因为 对 齐 需要 产生 了 空 除 ， 则 使 用 0 填充 补 齐 。 


首先 看 ELF 文 件 结构 的 组 装 。 


1 void Elf_file::assemObj 


() 苹 

2 /V 所 有 段 名 

3 vector<string> AllSegNames = shdrNames; 

4 AllSegNames.push_back(".shstrtab"); 

5 AllSegNames.push_back(".symtab"); 

6 AllSegNames.push_back(".strtab"); 

7 AllSegNames.push_back(".rel.text"); 

8 AllSegNames.push back(".rel.data"); 

9 

10 // 段 索引 

11 hash_map<string,int,string_hash> shIndex 
/ 

12 // 段 名 索引 

13 hash_map<string,int,string_hash> shstrIindex 
b 

14 / /建立 索引 

15 for (int i=0;i<AllSegNames 


.Size();++i)f{ 
16 string name = AllSegNames[i]; 


17 shIindex[name] = i; 

18 shstrIindex[name] = shstrtab.size(); 
19 shstrtab 

+= name ， / /保存 数据 
20 shstrtab.push_back('\0'); 

21 } 

22 

23 / /符号 索引 

24 hash_map<string,int,string_hash> symIndex 

/ 

25 / /符号 名 索引 

26 hash_map<string,int,string_hash> StrIndex 
/ 

27 / /建立 索引 

28 for (int i=0;i<symNames 


.Size();++i)f{ 
29 string name = symNames[i]; 
30 SymIndex[name] = 工 ; 
31 StrIndex[name] = strtab.size(); 
32 strtab 


+= name ， / /保存 数据 


33 strtab.push_back('\0'); 
34 } 

35 

36 / /更 新 符号 表 符号 名 索引 

37 for (int i=0;i<symNames 


.Size();++i)f{ 
38 string name = symNames[i]; 


39 symTab 
[name]->st_name=strIindex[name]; 
40 } 

41 

42 / /处理 重 定位 表 

43 for(int i=0;i<relTab 


,Size();i++){ 
44 Elf32_Rel*rel=new Elf32_Rel(); 


45 rel->r_offset=relTab[i]->rel->r_offset,; // 重 定位 位 置 
46 rel->r_info=ELF32_R_INFO( 

47 symIndex[relTab[i]->rel Name], // 重 定 
位 符号 

48 ELF32_R_TrPE(relTab[i]->rel->r_info) // 重 定位 
类 型 

49 

50 if(relTab[i]->SegName==". text") // 重 
定位 段 

51 relTextTab 

.push_back(rel); 

52 else if(relTab[i]->SegName==".data") 

53 relDataTab 

.push_back(rel); 

54 else 

55 delete rel; 

56 } 

57 

58 // 处 理 文件 头 

59 char magic[] = { 

// 魔 数 

60 Ox71, Ox45, Ox4c, QOx46, 

61 Ox01, Ox01, Ox01, QOx00, 

62 Ox00, Ox00, QOx00, QOx00, 

63 Ox00, Ox00, QOx00, QOxQO0 

64 }; 


66 memcpy(&ehdr.e_ident, magic, sizeof(magic)); 


67 ehdr.e_type=ET_REL; 

68 ehdr.e_machine=EM_ 386; 

69 ehdr.e_version=EV_CURRENT,; 

70 ehdr.e_entry=0; 

71 ehdr.e_phoff=0,; 

72 ehdr.e_shoff=0; 

73 ehdr.e_flags=0,; 

74 ehdr.e_ehsize=sizeof (El1f32_Ehdr); 

75 ehdr.e_phentsize=0; 

76 ehdr.e_phnum=0,; 

77 ehdr.e_shentsize=sizeof (El1f32_Shdr); 
78 ehdr.e_shnum=AllSegNames .size( ); 

79 ehdr.e_shstrndx=shIndex[".shstrtab"]; 
80 

81 int curOff = sizeof(ehdr 

总 / /文件 头 ， 已 对 齐 
82 

83 curoff += dataLen,; 


// 已 有 段 ， 已 对 齐 


84 

85 / /添加 新 的 段 表 项 

86 addSshdr(".shstrtab 

", SHT_STRTAB, 0, 0, curoOff, 

87 shstrtab.size(),SHN_UNDEF,0,1,0); 

88 curoff += shstrtab.size(); 

89 curOff += (4-curOff%4 )%4; 

齐 

90 

91 ehdr.e_shoff 

= curoOff; // 段 表 偏 移 
92 curoff += ehdr.e_shnum*ehdr.e_shentsize,; // 段 表 ， 
93 

94 addShdr(".Symtab 

", SHT_SYMTAB, 0,0, curoff, 

95 symNames.size()*sizeof(Elf32_Sym), 

96 shIndex[".strtab"],90,1,sizeof(Elf32_Sym)); 

97 curOff += symNames.size()*sizeof(Elf32 Sym); // 已 对 齐 
98 

99 addShdr(",Sstrtab 

", SHT_STRTAB, 0,0,curoOff ， 

100 strtab.size(),SHN_UNDEF,0,1,0); 

101 curoff += strtab.size(); 

102 curOff += (4-curOff%4 )%4; 


齐 


// 对 


已 对 齐 


// 对 


103 


104 addShdr(",rel.text 

", SHT_REL, 0,0, curoff, 

105 relTextTab.size()*sizeof(Elf32_Rel), 

106 shIindex[".symtab"],shIindex[".text"],1, 

107 sizeof(Elf32_ Rel)); 

108 curoff += relTextTab.size()*sizeof(Elf32_Rel); / /已 对 齐 
109 

110 addshdr(".rel.data 

", SHT_REL, 0,0, curoff, 

111 relDataTab. size()*sizeof(El1f32_Rel), 

112 shIndex[".symtab"],shIindex[".data"],1, 

113 sizeof(Elf32_ Rel])); 

114 curoff += relDataTab.size()*sizeof(Elf32 Rel); // 已 对 齐 
115 

116 / /更 新 段 表 段 名 索引 

117 for (int i=0;i<AllSegNames.size();++i){ 

118 string name = AllSegNames[i]; 

119 shdrTab 


[name]->sh_name=shstrIindex[name]; 
120 
121 } 


1) 第 2~8 行 ， 我 们 使 用 AllSegNames 记 录 所 有 的 段 名 ， 包 括 
shdrNames 记 录 的 段 ( 空 段 表 项 (初始 化 时 加 入 ) 、 汇 编 代 码 中 扫描 得 
到 的 代码 段 “.text* 和 数据 段 “.data”) ， 以 及 ELF 文 件 内 部 使 用 的 


段 : “.shstrtab”、“.symtab”、“.strtab”、“.rel.text”“.rel.data”° 


2) 第 10~21 行 建立 段 索 引 shIndex 和 段 名 索引 shstrIndex。shIndex 
记录 了 每 个 段 表 项 在 AllSegNames 的 索引 位 置 ， 段 表 会 根据 
AllSegNames 记 录 的 段 名 顺序 生成 各 个 段 表 项 。shstrIndex 记 录 了 每 个 
段 名 在 段 表 字符 串 表 “.shstrtab” 内 的 位 置 ， 我 们 按 AllSegNames 的 顺序 
拼接 所 有 的 段 名 形成 段 表 字 符 串 表 ， 拼 接 时 注意 使 用 "0 分 割 不 同 的 段 
在 < 


3) 第 23~34 行 建立 符号 索引 symIndex 和 符号 名 索引 strIndex 。 
symIndex 记 录 了 每 个 符号 表 项 (包括 初始 化 时 添加 的 空 符号 表 项 ) 在 
符号 名 列表 symNames 的 索引 位 置 ， 符 号 表 会 根据 symNames 记 录 的 符 
号 名 顺序 生成 各 个 符号 表 项 。strmdex 记 录 了 每 个 符号 名 在 字符 串 
表 “.strtab” 内 的 位 置 ， 我 们 按 symNames 的 顺序 拼接 所 有 的 符号 名 形成 
字符 串 表 ， 拼 接 时 注 间 使 用 ^\0’ 分 割 不 同 的 符号 名 。 


) 第 36~40 行 扫描 符号 表 strTab， 然 后 将 每 个 符号 表 项 的 st_name 
字段 设 为 人 符号 名 在 字符 串 表 内 的 有 索引， 完成 从 号 表 信 息 的 补充 。 


5) 第 42~56 行 处 理 ELF 文 件 对 象 内 记录 的 重 定位 表 项 信息 。 首 先 
生成 重 定位 表 项 Elf32_Rel， 设 置 重 定 位 位 置 r_offset， 使 用 
ELF32_R_INFO 宏 设置 重 定位 符号 (符号 索引 ) 和 重 定位 类 型 r_ info 。 
最 后 根据 重 定位 的 段 名 将 重 定位 信息 分 为 两 个 部 分 : 代码 段 重 定位 表 
relTextTab 和 数据 段 重 定 位 表 relDataTab 。 


6) 第 58~79 行 处 理 ELF 文 件 头 ， 按 照 第 5 章 描 述 的 ELF 文 件 头 的 内 
容 设置 对 应 字段 。 其 中 ，e_type 设 为 ET_REL 表 示 文 件 类 型 是 重 定位 有 目 
标 文件 ，e_ehsize 设 为 sizeof (Elf32_Ehdr) 表示 文件 头 大 小 ， 
e_shentsize 设 为 sizeof (Elf32 _Shdr) 表示 段 表 项 的 大 小 ，e_shnum 设 为 
AllSegNames 的 大 小 表示 上 段 表 项 个 数 ，e_shstrmdx 设 为 “.shstrtab” 的 段 索 
引 。 男 外 ，e_shoff 和 暂时 初始 化 为 0， 因 为 还 未 确定 段 表 的 文件 偏 移 。 


7) 第 81~83 行 将 curOff 初 始 化 为 ELF 文 件 头 的 大 小 ， 然 后 累加 
dataLen 大 小 。dataLen 记 录 了 汇编 器 扫描 的 所 有 段 (代码 段 和 数据 段 ) 
对 齐 后 的 大 小 。 因 为 最 终 curOfft 为 文件 头 、 代 码 段 、 数 据 段 的 总 大 
小 ， 即 “.shstrtab” 段 的 文件 偏 移 。 


8) 第 85~89 行 添加 “.shstrtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 关 
键 的 字段 有 段 名 “.shstrtab”、 段 类 型 SHT_STRTAB、 段 文件 偏 移 
curOff、 段 大 小 shstrtab.size () 、 对 齐 大 小 1 ( 即 该 段 的 文件 偏 移 不 进 
行 对 齐 ) 等 。 然 后 将 curOff 累 加 当前 段 大 小 、 对 齐 (后 续 文件 结构 要 
求 的 对 齐 方式 ) ， 继 续 处 理 下 一 个 文件 结构 。 


9) 第 91~92 行 处 理 段 表 的 信息 。 首 先 将 文件 头 的 e_shoff 设 为 
curOff， 即 段 表 的 偏 移 。 然 后 将 curOff 累 加 段 表 的 大 小 ， 段 表 项 个 数 * 
段 表 项 大 小 。 


10) 第 94~97 行 添加 “.symtab” 的 段 表 项 到 上 段 表 shdrTab。 其 中 比较 
关键 的 字段 有 段 名 “.symtab”、 段 类 型 SHT_SYMTAB、 段 文件 偏 移 
curOff、 段 大 小 (符号 表 项 个 数 * 符 号 表 项 大 小 ) 、sh_link 记 录 符 号 表 
使 用 的 串 表 “.strtab” 的 段 索引 、sh_info 记 录 第 一 个 全 局 符号 的 符号 索引 

(由 于 我 们 没有 在 符号 表 内 区 分 全 局 符号 的 区 域 ， 因 此 设 为 0， 这 样 链 
接 器 会 扫描 所 有 的 符号 ， 根 据 符号 的 全 局 属性 进行 符号 解析 ) 、 对 齐 
大 小 1 ( 即 该 段 的 文件 偏 移 不 进行 对 齐 )  、 符 号 表 项 大 小 sizeof 


(Elf32_Sym) 等 。 然 后 将 curOff 累 加 当前 段 大 小 ， 继 续 处 理 下 一 个 文 
件 结构 。 


11) 第 99~102 行 添加 “.strtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 
关键 的 字段 有 上 段 名 “.strtab”、 段 类 型 SHT_STRTAB、 上 段 文件 偏 移 
curOff、 段 大 小 strtab.size () 、 对 齐 大 小 1 ( 即 该 段 的 文件 偏 移 不 进行 
对 齐 ) 等 。 然 后 将 curOff 累 加 当前 段 大 小 、 对 齐 (后 续 文 件 结构 要 求 
的 对 齐 方式 ) ， 继 续 处 理 下 一 个 文件 结构 。 


12) 第 104~108 行 添加 “.rel.text” 的 段 表 项 到 段 表 shdrTab。 其 中 比 
较 关 键 的 字段 有 上 段 名 “.rel.text*、 上 段 类 型 SHT_REL、 段 文件 偏 移 
curOff、 段 大 小 (代码 段 重 定位 表 项 个 数 * 重 定位 表 项 个 数 ) 、 对 齐 大 
小 1 ( 即 该 段 的 文件 偏 移 不 进行 对 齐 ) 、 重 定位 表 项 大 小 sizeof 
(Elf32_Rel) 等 。 然 后 将 curOff 累 加 当前 段 大 小 ， 继 续 处 理 下 一 个 文 
件 结构 。 


13) 第 110~114 行 添加 “.rel.data” 的 段 表 项 到 段 表 shdrTab。 其 中 比 
较 关键 的 字段 有 上 段 名 “.rel.data”、 上 段 类 型 SHT_REL、 上 段 文 件 偏 移 
curOff、 段 大 小 (数据 段 重 定 位 表 项 个 数 * 重 定位 表 项 个 数 ) 、 对 齐 大 
小 1 ( 即 该 段 的 文件 偏 移 不 进行 对 齐 ) 、 重 定位 表 项 大 小 sizeof 
(Elf32_Rel) 等 。 然 后 将 curOff 累 加 当前 段 大 小 ， 继 续 人 处理 下 一 个 文 
件 结 构 。 


14) 第 116~120 行 扫描 段 表 shdrTab ， 然 后 将 每 个 段 表 项 的 sh_name 
字段 设 为 段 名 在 段 表 字符 串 表 内 的 索引 ， 完 成 段 表 信 息 的 补充 。 


到 这 里 ， 已 经 完成 了 ELF 目 标 文件 信息 的 组 装 。 


最 后 ， 便 是 ELF 文 件 结构 的 输出 。 


1 void Elf_ file: :writeElf 


(){ 
2 int padNum = 0， 

3 char pad[1]={0}; 

4 

5 // 文 件 头 

6 fwrite(&ehdr 

,ehdr.e_ehsize,1, fout),; 

7 

8 //.text 

9 char buffer[1024]={0}; 

10 int count = -1; 

11 while(count) { 

12 count = fread(buffer,1,1024,fin 
); 

13 fwrite(buffer,1,count, fout); 
14 } 

15 

16 //.data 

17 padNum = shdrTab[".data"]->sh_offset 
18 - shdrTab[".text"]->sh_offset 
19 - shdrTab[".text"]->sh_size; 

20 fwrite(pad,sizeof(pad),padNum,fout); 
21 table.write 

(); 

22 

23 //.shstrtab 

24 padNum = shdrTab[".shstrtab"]->sh_offset 
25 - shdrTab[".data"]->sh_offset 
26 - shdrTab[".data"]->sh_size; 

27 fwrite(pad,sizeof(pad),padNum, fout); 
28 fwrite(shstrtab 
.CcC_str(),shstrtab.size(),1,fTfout),; 

29 

30 // 段 表 

31 padNum = ehdr.e_shoff 

32 - shdrTab[".shstrtab"]->sh_offset 


33 - shdrTab[".shstrtab"]->sh_size,; 


34 fwrite(pad,sizeof(pad),padNum, fout); 
35 for(int i=0;i<shdrNames.size();++i){ 
36 Elf32_Shdr*sh=shdrTab 


[shdrNames[i]]; 
37 fwrite(sh,ehdr.e_shentsize,1,fout); 


38 } 

39 

40 / /符号 表 

41 for(int i=0;i<symNames.size();++i){ 
42 EJf32_Sym*sym=symTab 


[symNames[i]]; 
43 fwrite(sym,sizeof(El1f32_Sym),1,fout); 


44 } 

45 

46 // ,strtab 

47 fwrite(strtab 
.C_str(),strtab.size(),1,fout); 

48 

49 //.rel.text 

50 padNum = shdrTab[".rel.text"]->sh_offset 
51 - shdrTab[".strtab"]->sh_offset 
52 - shdrTab[".strtab"]->sh_size,; 

53 fwrite(pad,sizeof(pad),padNum,fout); 

54 for(int i=0;i<relTextTab.size();++i){ 

55 Elf32_ Rel*rel=relTextTab 

[i]; 

56 fwrite(rel,sizeof(Elf32 Rel),1,fout); 
57 } 

58 

59 //.rel.data 

60 for(int i=0;i<relDataTab.size();++i){ 

61 Elf32_ Rel*rel=relDataTab 

[i]; 

62 fwrite(rel,sizeof(El1f32_Rel),1,fout); 
63 } 

64 } 


1) 首先 输出 ELF 文 件 头 ehdr， 调 用 fwrite 将 该 结构 输出 到 文件 即 
可 。 


2) 第 8~14 行 输出 代码 段 的 二 进 制 内 容 。 其 中 ， 输 入 流 文件 指针 
fin 指 癌 指 令 生成 时 产生 的 代码 段 临 时 文件 ， 这 里 只 需要 将 临时 文件 的 
内 容 输出 到 目标 文件 即 可 。 


3) 第 16~21 行 输出 数据 段 的 二 进 制 内 容 。 首 先 使 用 0 填充 “.data” 段 
和 “.text" 段 因为 对 齐 产生 的 间 除 。 然 后 调用 符号 表 table 的 write 函数 输 
出 数据 段 的 内 容 。 


4) 第 23~28 行 输出 “.shstrtab” 段 。 首 先 使 用 0 填充 “.shstrtab” 段 
和 .data" 段 因为 对 齐 产生 的 间隙 。 然 后 输出 shstrtab 保 存 的 段 名 字符 串 


于 
器 


5) 第 30~38 行 输出 段 表 。 首 先 使 用 0 填充 段 表 和 “.shstrtab” 段 因为 
对 齐 产生 的 间隙 。 然 后 按照 shdrNames 保 存 的 段 名 顺序 输出 shdrTab 保 
存 的 段 表 项 内 容 。 


6) 第 40~44 行 输出 “.symtab” 段 。 只 需 按 照 symNames 保 存 的 符号 名 
顺序 输出 symTab 保 存 的 符号 表 项 内 容 即 可 。 


7) 第 46~47 行 输出 “.strtab” 段 。 只 需 输出 strtab 保 存 的 符号 名 字符 


8) 第 49~57 行 输出 “.rel.text* 段 。 首 先 使 用 0 填充 “.rel.text”* 段 
和 “.strtab” 段 因为 对 齐 产 生 的 间 际 。 然 后 输出 relTextTab 保 存 的 代码 段 


重 定位 表 项 内 容 。 


9) 第 59~63 行 输出 “.rel.data” 段 。 只 需 输 出 relDataTab 保 存 的 数据 
段 重 定 位 表 项 内 容 即 可 。 


在 输出 数据 段 的 内 容 时 ， 调 用 符号 表 的 write 函数 实现 。 


1 void lb_record: :write 


( 
2 for(int i=0; i<times; i++) { 

3 list<int>::iterator j = cont.begin(); 
4 for(; j != cont.end(); j++) { 

5 generator .writeBytes 

*j, this->len); 


} 
© void Table: :write 

fe ee 
11 for(int i=0;i<defLbs.size();i++) { 
12 defLbs 
[i]->write(); 
13  } 


14 } 


符号 表 会 肖 历 所 有 的 已 经 保存 的 包含 数据 的 符号 defLbs， 然 后 逐 
个 输出 符号 的 数据 内 容 。 符 号 对 象 的 write 方 法 会 根据 符号 定义 的 重复 
次 数 和 长 度 ， 调 用 指令 生成 器 的 writeBytes 方 法 将 符号 的 数据 按照 小 字 
琅 序 输出 。 


至 此 ， 我 们 将 可 重 定位 目标 文件 的 内 容 输出 完毕 ， 完 成 了 汇编 器 
的 最 后 一 步 操 作 。 使 用 readelf 命 令 ， 可 以 查看 验证 我 们 输出 的 目标 文 
件 结构 的 正确 性 。 


6.7 ”本章 小 结 


本 章 根 据 已 设计 的 汇编 器 结构 ， 分 别 从 词法 分 析 、 语 法 分 析 、 符 
号 表 管 理 、 表 信息 生成 、 指 令 生 成 和 目标 文件 生成 的 角度 描述 了 一 个 
人 简单 的 汇编 右 实 现 。 我 们 发 现汇 编 右 和 编译 占 在 实现 上 有 很 大 的 相似 
性 ， 尤 其 是 在 词法 分 析 和 语法 分 析 部 分 ， 有 很 多 相似 的 逻辑 和 流程 。 
不 过 汇编 器 也 有 其 独特 性 ， 在 生成 ELF 文 件 和 人 处理 汇 编 指令 的 翻译 过 
程 中 ， 涉 及 了 大 量 计算 机 发 层 的 内 容 。 笔 者 在 实现 汇编 器 和 整理 本 半 
内 容 的 时 候 ， 也 会 反复 查阅 Intel 的 x86 指 令 手册 以 及 ELF 相 关 的 资料 ， 
以 保证 每 个 指令 的 操作 码 和 ELF 文 件 结构 字段 描述 的 正确 性 ， 避 免 误 


导读 者 。 


相信 经 过 本 章 的 描述 ， 大 家 对 汇编 右 的 实现 有 了 比较 清晰 的 了 
解 。 我 们 目前 终于 弄 清 了 一 段 高 级 语言 代码 是 如 何 一 步 步 转化 为 目标 
文件 的 。 不 过 目标 文件 仅仅 存储 了 代码 的 二 进 制 表示 ， 还 不 能 在 操作 
系统 中 正常 执行 。 在 接 下 来 的 第 7 划 中 ， 我 们 将 介绍 如 何 将 汇编 器 生成 
的 目标 文件 处 理 、 组 闭 成 一 个 真正 可 以 执行 的 文件 ， 以 验证 我 们 目 害 
义 的 高 级 语言 代码 和 编译 系统 实现 的 正确 性 。 


一 一 《史记 》 


在 编译 系统 中 ， 链 接 如 扮演 类 似 “ 胶 水 ”的 角色 。 它 把 汇编 大 处 理 
生成 的 可 重 定位 目标 文件 猪 合 、 拼 接 为 一 个 可 执行 的 ELF 文 件 。 然 
而 ， 链 接 句 并 非 机 械 地 拼接 目标 文件 ， 它 还 需要 完成 汇编 阶段 无 法 完 
成 的 段 地 址 分 配 、 符 号 地 址 计算 以 及 数据 /指令 内 容 修正 的 工作 。 这 三 
个 主要 任务 涉及 了 链接 器 工作 的 核心 流程 ， 地 址 空间 分 配 、 符 号 解析 
和 重 定位 。 


在 可 重 定位 目标 文件 的 段 表 项 中 ， 段 的 虚拟 地 址 都 征 默 认 设 为 0。 
这 是 因为 在 汇编 器 处 理 阶段 ， 是 不 可 能 知道 段 的 加 载 地址 的 。 链 接 妖 
的 地 址 空间 分 配 操 作 的 主要 目的 是 为 段 指定 加 载 地 址 。 


在 确定 了 段 加载 地 址 (简称 段 基 址 ) 后 ， 根 据 目标 文件 内 符号 的 
段 内 偏 移 地 址 ， 可 以 计算 得 到 符号 的 虚拟 地 址 〈 倘 称 符 号 地 址 ) 。 链 
接 絮 的 符号 解析 操作 并 不 止 于 计算 符号 地 址 ， 它 还 需要 分 析 目 标 文件 
之 间 的 符号 引用 的 情况 ， 计 算 目 标 文 件 内 引用 的 外 部 符号 的 地 址 。 


符号 解析 之 后 ， 所 有 目标 文件 的 符号 地 址 都 已 经 确定 。 链 接骨 通 
过 重 定位 操作 ， 修 正 代 码 段 或 数据 段 内 引用 的 符号 地 址 。 


最 后 ， 链 接 紫 将 以 上 操作 人 处 理 后 的 文件 信息 导出 为 可 执行 ELF 文 
件 ， 完 成 链接 的 工作 。 


参考 图 2-17 描 述 的 链接 器 的 结构 设计 ， 我 们 在 本 章 详 细 兽 述 链 接 
右 每 个 功能 模块 的 实现 。 


7.1 信息 收集 


对 链接 融 来 说 ， 其 输入 是 一 系列 的 可 重 定位 目标 文件 。 链 接 硕 欲 
完成 后 续 的 工作 ， 必 须 逐 个 扫描 目标 文件 ， 提 取 需 要 的 信息 进行 处 
理 。 因 此 ， 我 们 需要 建立 必要 的 数据 结构 缓存 链接 右 需 要 的 信息 。 


7.1.1 目标 文件 信息 


经 构建 了 Elf _ file 对 象 ， 不 过 


首 爷 ， 需 要 建立 ELF 文 件 对 象 ， 保 存 扫描 的 目标 文件 信息 。 第 6 章 
该 对 象 的 主要 功能 是 将 ELF 文 件 结构 信 
思 写 入 目标 文件 。 而 链接 融 需 要 扫 摘 ELF 文 件 的 内 容 ， 因 此 需要 添加 


必要 的 ELF 文 件 读 取 操 作 。 正 如 汇编 器 生成 目标 文件 时 比较 关心 段 


表 、 


符号 表 、 重 定位 表 信 息 那 样 ， 链 接 闫 扫描 目标 文件 时 也 会 着重 天 


注 这 三 个 文件 结构 的 信息 。 


。 人 参考 第 6 草 对 ELF 目 标 文 件 结构 的 构造 方 


式 ， 读 取 ELF 目 标 文件 结构 的 实现 代码 为 : 


1 void Elf_ file::readElf 


(const string dir) { 


// 打 开 目 标 文 件 
3 elf_ dir=dir， 
4 FILE*fp=fopen(elf_dir.c_ str(),"rb"); 
5 
6 /7 文件 里 
7 rewind(fp); 
8 fread(&ehdr 


, Sizeof (El1f32_Ehdr),1, fp); 
9 


10 / /程序 头 表 


phdrTab 
.push_back(phdr); 

} 
18 } 


//.Shstrtab 表 项 


if(ehdr.e_ type==ET_EXEC) { 
fseek(fp,ehdr.e_ 
for(int i=0;i<ehdr.e_phnum;++i) 
Elf32_Phdr*phdr=new Elf32_Phdr(); 
fread(phdr,ehdr.e_phentsize,1,fp); 


phoff, 0); 


21 Elf32_Shdr shstrTab; 


22 fseek(fp,ehdr.e_shoff+ehdr.e_shentsize*ehdr.e_shstrndx,0); 
23 fread(&shstrTab,ehdr.e_shentsize, 1, fp); 

24 

25 //.shstrtab 

26 char*shstrTabData=new char[shstrTab.sh_sizel]; 
27 fseek(fp,shstrTab.sh_offset, 0),; 

28 fread(shstrTabData 

,ShstrTab. sh_size,1,fp); 

29 

30 // 段 表 

31 fseek(fp,ehdr.e_shoff,0); 

32 for(int i=0;i<ehdr.e_shnum;++i) { 

33 Elf32_Shdr*shdr=new Elf32_Shdr(); 

34 fread(shdr,ehdr.e_shentsize, 1, fp); 

35 string name(shstrTabData+shdr->sh_name); 
36 shdrNames 

,push_back(name ) ， 

37 shdrTab 

[name]=shdr; 

38 

39 

40 //.strtab 

41 Elf32_Shdr *strTab=shdrTab[".strtab"]; 

42 char*strTabData=new char[strTab->sh_size]; 

43 fseek(fp,strTab->sh_offset, 0); 

44 fread(strTabData 

,StrTab->sh_size, 1, fp); 

45 

46 //,Symtab 

47 Elf32_Shdr *sh_symTab=shdrTab[".symtab"]; 

48 fseek(fp,sh_symTab->sh_offset, 0); 

49 int symNum=sh_symTab->sh_size/sh_symTab->sh_entsize,; 
50 for(int i=0;i<symNum;++i) { 

51 Elf32_Sym*sym=new Elf32_Sym(); 

52 fread(sym,sh_symTab->sh_entsize,1,fp); 
53 string name(strTabData+sym->st_name); 
54 symNames 


.push_back(name ) ; 


55 SymTab 

[name]=sym; 

56 

57 

58 //.rel.data .rel.text 

59 for(int i=0;i<shdrNames.size();i++) { 

60 string shdrName = shdrNames[i]; 

61 Elf32_Shdr*shdr=shdrTab[shdrName]; 

62 if(shdr->sh_type==SHT_REL) { 

63 fseek(fp,shdr->sh_offset, 0); 

64 int relNum=shdr->sh_size/shdr->sh_entsize; 

65 for(int j=0;j<relNum;++j) { 

66 Elf32_Rel*rel=new Elf32_Rel(); 

67 fread(rel,shdr->sh_entsize,1,fp); 

68 string segName=shdrNames[shdr->sh_info]; 
69 string symName=symNames[ELF32 R_SYM(rel->r_info)]; 


70 relTab 


,push_back(new RelItem(segName,rel,symName)); 
71 } 


72 } 

73 } 

74 

75 delete []shstrTabData; 
76 delete []strTabData,; 
77 fclose(fp); 

78 } 


我 们 使 用 readElf 画 数 读 取 ELE 文 件 的 信息 。 
1) 第 2~4 行 打开 目标 文件 ， 并 将 文件 路 径 记录 到 elf_dir 。 


2) 第 6~8 行 读 取 ELF 文 件 头 的 信息 到 ehdr 。 


3) 第 10~18 行 读 取 程 序 头 表 的 信息 。 虽 然 目标 文件 没有 该 文件 结 
构 ， 但 我 们 还 是 实现 了 这 部 分 的 逻辑 。 即 从 文件 的 e_phoff 偏 移 处 ， 读 
取 e_phentsize 个 Elf32_Phdr 对 象 ， 保 存 到 phdrTab 列 表 即 可 。 


4) 第 20~23 行 读 取 段 表 字 符 串 表 “.shstrtab” 的 段 表 项 信息 ， 根 所 
e_shstmdx 字 上 段 以 及 段 表 偏 移 和 上 段 表 项 大 小 ， 可 计算 得 到 “.shstrtab” 的 
位 置 ， 然 后 取出 该 段 表 项 对 应 的 Elf32_Shdr 对 和 象 shstrTab 。 


5) 第 25~28 行 读 取 上 段 表 字符 串 表 “.shstrtab” 的 数据 内 容 。 即 根据 段 
表 项 shstrTab 记 录 的 段 偏 移 sh_offset 和 上段 大 小 sh_size， 读 取 数 据 到 字符 
缓冲 区 shstrTabData 。 


6) 第 30~38 行 读 取 上 段 表 的 信息 。 即 从 文件 的 e_shoff 偏 移 处 ， 读 取 
e_shentsize 个 Elf32_Shdr 对 象 ， 保 存 到 shdrTab 表 即 可 。 其 中 段 名 可 以 从 


shstrTabData 的 sh_name 位 置 获得 ， 我 们 将 段 名 按 序 保 存 到 段 名 列表 
shdrNames， 以 方便 段 表 项 的 按 索引 访问 。 


7) 第 40~44 行 读 取 字 符 串 表 “.strtab” 的 数据 内 容 。 即 根据 段 表 项 记 
录 的 段 偏 移 sh_offset 和 上 段 大 小 sh_size， 将 文件 中 的 内 容 读 取 到 字符 绥 
冲 区 strTabData。 理 论 上 ， 对 字符 种 表 的 访问 方式 应 该 是 根据 段 表 中 扫 
描 到 的 重 定 位 表 项 〈 段 类 型 为 SHT_REL) 的 sh_link 字 段 得 到 重 定位 表 
引用 的 符号 表 的 段 表 索引 ， 继 而 取出 符号 表 的 段 表 项 ， 然 后 根据 符号 
表 的 段 表 项 的 sh_link 子 段 得 到 符号 表 引 用 的 字符 串 表 的 段 索引 ， 最 终 
得 到 字符 串 表 的 数据 内 容 。 不 过 ， 我 们 很 清楚 在 汇编 右 生 成 的 目标 文 
件 内 只 有 唯一 一 个 “.strtab” 段 ， 这 里 直接 按 名 访问 是 一 种 简化 的 方式 ， 
后 面 对 符 号 表 的 访问 与 此 类 似 。 


8) 第 46~56 行 读 取 符号 表 “.symtab” 的 信息 。 即 从 段 表 项 记录 的 
sh_offset 位 置 ， 读 取 sh_size/sh_entsize 个 Elf32_Shdr 对 象 ， 保 存 到 
symTab。 其 中 符号 名 从 strTabData 的 st_name 位 置 获 得 ， 我 们 将 符号 名 
按 序 保 存 到 符号 名 列表 symNames， 以 方便 符号 表 项 的 按 索 引 访问 。 


9) 第 58~73 行 读 取 重 定位 表 的 信息 。 通 过 遍历 取出 段 类 型 为 
SHT_REL 的 段 表 项 ， 从 段 表 项 记录 的 sh_offset 位 置 ， 读 取 
sh_size/sh_entsize 个 Elf32_Rel 对 象 。 对 于 每 个 重 定位 表 项 rel， 根 据 当 
前 段 的 sh_info 从 shdrNames 内 取得 重 定 位 段 名 segName， 根 据 重 定位 表 
项 的 r_info 取 出 重 定位 符号 在 符号 表 内 的 索引 ， 继 而 从 symNames 内 取 


得 重 定位 符号 名 symName。 根 据 以 上 信息 构造 Relltem 对 象 ， 保 存 到 
relTab 表 即 可 。 


7.1.2” 上段 数据 信息 


通过 读 取 ELF 可 重 定位 目标 文件 ， 可 以 将 行 链接 的 目标 文件 信息 你 
存 起 来 。 然 而 ， 链 接 絮 处 理 的 对 象 其 实 是 目标 文件 内 你 存 的 二 进 制程 
序 或 数据 ， 如 代码 段 “.text” 和 数据 段 “.data” 的 内 容 。 因 此 ， 和 需要 定义 相 
关 的 数据 结构 以 保存 目标 文件 内 的 二 进 制 信息 ， 辅 助 链接 器 的 工作 。 
为 了 保持 描述 的 一 致 性 ， 本 书 将 段 内 保存 的 二 进 制 信息 统称 为 段 数 
据 。 


工 。// 数 据 块 


2 struct Block 


{ 
3 char *data; 
// 块 数据 
4 unsigned int offset,; // 块 偏 移 
5 unsigned int size; // 块 大 
小 
6 }; 


7 
8 // 同 类 型 段 列表 


9 struct SegList 


{ 

10 unsigned int baseAddr; // 基 地址 

11 unsigned int begin,; // 对 
齐 前 偏 移 

12 unsigned int offset,; / /对齐 后 偏 移 


13 unsigned int size; // 总 大 


14 Vector<E1Lf_ filex>ownerList // 所 有 者 文件 


15 vector<Block*>blocks; / /数据 块 
16 

17 void Se a name, unsigned int& base, 

18 unsigned int& off); 

19 void Ee int relAddr 

20 unsigned char type, unsigned int symAddr); 

21 } 

2 


23 hash map<string,SegList*,string hash>segLists 


// 所 有 合并 段 列表 


1) 第 1~6 行 定义 Block 类 保存 段 数 据 的 信息 ， 其 中 data 表 示 数 据 块 
的 地 址 ，offset 表 示 数 据 块 经 过 链接 右 处 理 后 在 可 执行 文件 内 的 偏 移 ， 
Size 表示 数据 块 的 大 小 。 由 于 链接 需 在 重 定位 阶段 需要 段 数 据 内 容 ， 
此 Block 保 存 的 数据 块 为 重 定位 操作 提供 了 数据 载体 。 


2) 第 9~21 行 定义 SegList 类 保存 同类 型 段 的 数据 块 和 相关 信息 。 其 
中 baseAddr 表 示 链 接 器 为 合并 后 的 段 分 配 的 虚拟 段 基 地 址 ，begin 表 示 
合并 后 的 段 在 对 齐 之 前 的 文件 偏 黎 ，offset 表 示 对 齐 后 的 文件 偏 黎 ，size 
表示 合并 后 的 段 大 小 ，ownerList 表 示 包 含 该 类 型 段 的 目标 文件 列表 ， 
blocks 表 示 所 有 的 当前 段 类 型 的 段 数 据 列表 。 函 数 allocAddr 用 于 段 的 地 
址 空间 分 配 操 作 ，relocAddr 用 于 重 定位 操作 。 SegList 对 象 保存 的 信息 
方便 了 链接 器 的 段 地 址 空间 分 配 工作 。 


3) 第 23 行 定义 的 segLists 对 象 保存 了 所 有 类 型 的 SegList 对 象 。 由 于 
在 汇编 强 阶 段 仅 生成 了 两 种 类 型 的 段 :，“.text* 段 和 “.data” 段 ， 因 此 在 简 


化 的 链接 器 的 实现 中 ，segLists 对 象 其 实 只 有 两 个 元 素 。 


为 了 方便 对 段 数据 信息 相关 数据 结构 的 理解 ， 我 们 使 用 一 个 简单 
的 例子 说 明 。 


如 图 7-1 所 示 ， 舞 接 胡 会 将 同名 的 段 合并 ， 如 “.text" 段 和 “.data” 段 。 
深 色 部 分 表示 目标 文件 内 段 的 二 进 制 数据 ，Block 对 象 会 记录 该 数据 的 
内 容 、 大 小 以 及 合并 后 的 偏 移 。 比 如 目标 文件 a.o 和 b.o 的 “.text” 段 会 被 
合并 为 可 执行 文件 的 “.text" 段 。 合 并 后 的 段 内 包含 原始 的 段 内 二 进 制 数 
据 和 因为 段 对 齐 产生 的 段 内 填充 数据 。 段 内 对 齐 会 根据 目标 文件 内 你 
存 的 段 对 章 子 段 sh_align 进 行 ， 如 文件 b.o 的 “.text”* 的 偏 移 会 根据 4 子 广 对 
齐 。 合 并 后 的 段 也 需要 根据 可 执行 文件 对 段 的 对 齐 要 求 进行 对 齐 ， 如 
最 终 的 “-text" 段 的 侦 移 会 按照 链接 如 要 求 的 16 字 节 进 行 对 齐 (其 他 类 型 
的 段 ， 如 数据 段 仍 是 按照 4 字 节 对 齐 ) 。 对 齐 前 的 文件 偏 移 保存 在 
SegList: : begin 内 ， 以 方便 可 执行 文件 生成 时 对 段 间 的 间 除 进行 填 
pu 


Block:: offset 
i J<—Block: size 一 >| cr- 一 段 内 填充 


XR] | so cont | [poreee[ [perasel 


起 一 一 SegList: Size 一 一 > 
SegList:: 和 
SegList:: offset 


.text 段 .data 段 


图 7-1 上段 数据 组 织 


由 于 同类 型 的 段 数据 被 保存 在 SegList 的 对 象 中 ， 因 此 当 需 要 对 段 
的 数据 内 容 进行 重 定位 〈 修 改 数据 ) 操作 时 ， 只 需要 根据 重 定位 的 偏 
移 地 址 找到 对 应 的 数据 块 ， 然 后 修改 对 应 的 数据 即 可 。 


7.1.3 ”符号 引用 信息 


除了 对 目标 文件 的 段 数据 进行 重新 组 织 ， 链 接 右 还 需要 分 析 目 标 
文件 内 符号 的 引用 情况 。 之 所 以 要 分 析 符 号 的 引用 信息 ， 是 因为 在 链 
接 亏 处理 的 目标 文件 中 ， 存 在 未 定义 的 符号 ， 即 对 其 他 目标 文件 符号 
的 引用 。 为 了 方便 链接 器 符号 解析 的 处 理 ， 一 般 会 定义 两 个 符号 集 
合 : 一 个 是 寻 出 符号 集合 ， 表 示 所 有 目标 文件 内 定义 的 可 以 被 其 他 目 
标 引 用 的 全 局 符号 集合 ; 另 一 个 是 导入 符号 集合 ， 表 示 所 有 目标 文件 
未 定义 却 引 用 其 他 目标 文件 的 从 号 集合 


1 // 符 号 引用 对 象 


2 struct SymLink { 

3 string name; / /符号 名 

4 Elf_file*recyv; // 引 用 符号 文件 
5 Elf_file*prov; / /提供 符号 的 文件 


6 }; 
了 


8 vector<SymLink*>symLinks 


/ /所 有 符号 引用 信 ， 


证 


9 vector<SymLink*>symDef 


// 所 有 符号 定义 信息 


1) 第 1~6 行 定义 了 SymLink 对 象 记录 符号 引用 的 信息 ， 其 中 name 
为 符号 名 ，recv 为 引用 符号 的 目标 文件 ，prov 为 定义 符号 的 目标 文件 。 


2) 第 8~9 行 的 symLinks 表 示 导 入 符号 的 集合 ，symDef 表 示 导 出 符 


如 图 7-2 所 示 ， 在 日 标 文件 a.0 内 定义 了 全 局 从 号 var 和 main， 在 日 标 
文件 b.o 内 定义 了 全 局 符号 ext 和 fun， 这 些 符号 所 在 的 段 已 经 在 符号 名 前 
标明 ， 链 接 需 会 将 这 四 个 全 局 符号 放 入 导出 符号 集合 。 另 外 ， 目 标 文 
件 a.o 的 符号 表 内 还 保存 了 未 定义 符号 ext 和 fun， 目 标 文件 b.o 的 符号 表 
内 也 保存 了 未 定义 从 号 var， 链 接 絮 将 这 三 个 未 定义 符号 放 入 导入 符号 
集合 。 经 过 链接 器 的 符号 解析 处 理 后 ， 会 为 每 个 导入 符号 找到 定义 它 
的 目标 文件 。 例 如 ，a.o 中 ext 和 fun 符 号 的 定义 在 b.o 文 件 内 ， 以 及 b.o 中 
Var 和 从 号 的 定义 在 a.o 文 件 内 。 


导出 符号 


导 人 符号 


图 7-2 符号 引用 


7.2” ”地址 空间 分 配 


汇编 硕 生 成 目标 文件 时 ， 由 于 无 法 确定 段 的 加 载 地 址 ， 因 此 稚 认 
将 段 基 址 设置 为 0。 链接 絮 的 第 一 步 工作 便 是 确定 需要 加 载 段 的 段 基 
址 ， 为 待 加 载 段 指定 段 基 址 的 过 程 称 为 地 址 空间 分 配 。 


链接 器 为 段 指定 基 址 ， 需 要 从 三 个 方面 进行 考虑 。 


1) 段 加 载 的 起 始 地 址 。 该 地 址 是 所 有 加 载 段 的 起 始 位 置 ， 在 32 位 
Linux 系 统 中 ， 一 般 设 置 为 0x08048000。 


2) 段 的 拼接 顺序 。 链 接 器 按 序 扫描 目标 文件 内 同名 的 段 ， 并 将 段 
的 二 进 制 数据 依次 “ 摆 放 ”。 在 我 们 实现 的 链接 器 中 ， 只 需要 按照 代码 
段 “texf"、 数 据 段 <.data” 的 顺序 ， 依 次 处 理 每 个 目标 文件 内 该 类 型 的 段 
印 可 。 


3) 段 对 齐 方式 。 段 对 齐 包含 两 个 层面 : 段 文件 偏 移 的 对 齐 和 上 段 基 
址 的 对 齐 。 在 可 重 定位 的 目标 文件 内 ， 一 般 将 段 的 文件 偏 移 对 齐 设置 
为 4 字 节 ， 不 考虑 段 基 址 的 对 齐 ( 段 基 址 都 是 0， 没 有 对 齐 的 意义 ) 。 
而 在 可 执行 文件 内 ， 会 将 代码 段 “.text” 的 文件 偏 移 对 齐 设置 为 16 字 节 ， 
其 他 段 的 文件 偶 移 对 齐 方式 仍 默认 为 4 字 世 。 而 段 基 址 的 对 齐 则 比较 复 
杂 ， 需 要 保证 段 的 线性 地 址 与 段 对 应 文件 偏 移 相 对 于 段 对 齐 值 〈 即 页 


面 大 小 ，Linux 下 默认 为 4096 字 广 ) 取 模 相等 。 此 处 可 参考 第 5 章 关 于 
程序 头 表 内 段 对 齐 字 段 p_align 的 解释 。 


图 7-3 给 出 了 一 个 地 址 空间 分 配 的 例子 。 目标 文件 ao 的 代码 段 大 小 
为 0x4a 字 有 ， 数 据 段 大 小 为 0x08 字 下，b.o 的 代码 段 大 小 为 0x21 字 他， 
数据 段 大 小 为 0x04 字 节 。 


首先 确定 段 的 文件 偏 移 。 根 据 前 面 的 描述 ， 链 接 器 会 将 a.0 的 代码 
段 、b.o 的 代码 段 、a.o 的 数据 段 、b.o 的 数据 段 依次 “ 摆 放 ”。 基 于 该 顺 
序 ， 可 以 确定 每 个 段 的 文件 偏 移 。 在 可 执行 文件 的 代码 段 之 前 ， 还 有 
文件 头 和 程序 头 表 结构 。 其 中 文件 头 占 用 52 字 节 ， 程 序 头 表 包 含 两 个 
表 项 (分 别 用 于 加 载 代码 段 和 数据 段 )”， 占 用 2xsizeof (Elf32_Phdr) 
=2x32=64 字 节 ， 因 此 代码 段 的 文件 偏 移 为 52+64=116 字 市 (0x74) 。 考 
虑 到 可 执行 文件 代码 段 的 文件 偏 移 需 要 按 16 字 节 对 齐 ， 因 此 最 终 确定 
的 代码 段 文件 偏 移 为 0x80。 基 于 此 ， 确 定 a.o 的 代码 段 文件 偏 移 为 
0x80。b.o 的 代码 段 文件 偏 移 为 0x80+0x4a=0xca， 按 照 4 字 节 (目标 文件 
段 表 内 段 表 项 的 sh_align=4) 对 齐 后 为 0xcc。 依 此 类 推 ， 得 到 a.o 的 数据 
段 文 件 偏 移 为 0xf0，b.o 的 数据 段 文件 偏 移 为 0xf8。 


接着 ， 根 据 段 的 文件 偏 移 确定 段 基 址 。 从 默认 的 段 加 载 起 始 地 址 
0x08048000 开 始 ， 计 算 代 码 段 和 数据 段 的 基 址 。 将 起 始 地 址 按照 页 大 
小 4096 字 节 (0x1000) 对 齐 为 0x08048000， 然 后 票 加 代码 段 文件 偏 移 
相对 于 页 大 小 的 模 值 0x80%0x1000=0x80， 得 到 代码 段 的 最 终 基 址 为 


0x08048080。 基 于 此 ， 得 到 a.o 的 代码 段 的 基 址 为 0x08048080，b.o 的 代 
码 段 的 基 址 为 0x080480cc， 代 码 段 结束 位 置 的 虚拟 地 址 为 0x080480ed 。 
接 下 来 处 理 数 据 段 ， 将 代码 段 的 结束 位 置 的 虚拟 地 址 按照 页 大 小 对 齐 
后 为 0x08049000， 素 加 数据 段 文 件 侦 移 相对 于 页 大 小 的 模 值 
0xf0%0x1000=0xf0， 得 到 数据 段 的 最 终 基 址 为 0x080490f0。 基 于 此 ， 
得 到 a.o 的 数据 段 基 址 为 0x080490f0，b.o 的 数据 段 基 址 为 0x080490f8 。 


section .text section .text 
main: 


call fun 


section .data 
mov eax,[ext] mov eax,[exf] ext dd0 
mov [var ] eax mov [var],eax 


文件 b.o 


文件 a.o 


var dd 1 
section .data 
ext dd 0 


图 7-3 ”地 址 空间 分 配 


根据 以 上 的 描述 ， 链 接 器 对 地 址 空间 分 配 算法 的 实现 为 : 


1 #define BASE_ADDR 


Ox08048000 / /默认 加 载 地 址 


2 #define MEM ALIGN 


4096 / /默认 内 存 对 齐 大 小 


3 #define DISC_ALIGN 


4 / /默认 磁盘 对 齐 大 小 


4 #define TEXT_ALIGN 


16 // .text 段 对 齐 大 小 
5 

6 void Linker::allocAddr 

() { 

7 unsigned int curAddr=BASE_ADDR; 

8 unsigned int curOff=52+ 

9 sizeof (Elf32_Phdr)*segNames.size(); 
10 for(int i=0;i<segNames.size();++i) { 

11 segLists[segNames[i]]->allocAddr (segNames[i], 
12 curAddr, curoff); 

13 } 

14 } 

15 


16 void SegList::allocAddr 


(string name,unsigned int& base, 
17 unsigned int& off) { 

18 begin=off; 

/ /对齐 前 偏 移 


20 int align=DISC_ALIGN; 

21 if(name==".text") align=TEXT_ALIGN; 

22 off+=(align-off%align)%align; 

23 base+=(MEM_ALIGN-base%MEM_ALIGN )%MEM_ALIGN 


24 +Off%MEM_ ALIGN; 
25 

26 baseAddr=base; 
// 段 基 址 


27 offset=off; 
/ /对齐 后 偏 移 


28 size=0; 
// 段 大 小 ， 段 内 偏 移 


29 

30 for(int i=0;i<ownerList.size();++i) 

31 Elf32_Shdr*seg=ownerList[i]->shdrTab[name]; 

32 int sh_align=seg->sh_align,; 

33 size+=(sh_align-size%sh _ align)%sh_align; 

34 

35 char* buf=new char[seg->sh_size]; // 段 数据 
36 ownerList[i]->getData(buf,seg->sh_offset, seg->sh_size); 

37 blocks.push_back(new Block(buf, size,seg->sh_size)); 

38 

39 seg->sh_addr=base+size; // 段 基 址 


40 size+=seg->sh_size,; / /累加 段 


内 偏 移 


41 
42 base+=size; 
/ /累加 基 址 


43 off+=size; 
/ /累加 偏 移 


44 } 
45 
46 void Elf_file::getData 


(char*buf,E1Lf32_Off offset, 

47 Elf32 Word size) { 

48 FILE*fp=fopen(elf_dir,"rb"); 
49 rewind(fp); 

50 fseek(fp,offset,o0); 

51 fread(buf,size,1,fp); 

52 fclose(fp); 

53 } 


1) 第 1~4 行 定义 了 链接 大使 用 的 利 量 : 稚 认 段 加 载 起 始 地 址 、 内 
存 对 齐 大 小 、 文 件 对 齐 大 小 、 代 码 段 对 齐 大 小 。 


2) 第 6~14 行 是 为 链接 器 进行 地 址 空间 分 配 的 主流 程 。 首 先 将 
curAddr 初 始 化 为 段 加 载 起 始 地 址 (0x08048000) ，curOff 为 段 起 始 文 
件 偏 移 (ELF 文 件 头 + 程序 头 表 大 小 ) 。 人 然后 根据 段 名 列表 ( 包 
含 “.text* 和 “.data”) 对 每 个 段 类 型 进行 地 址 空间 分 配 。 


3) 第 16~44 行 处 理 每 个 类 型 段 的 地 址 空间 分 配 。 


4) 第 18~28 行 首先 将 对 齐 前 的 文件 偏 移 记 杂 到 begin 字 段 ， 然 后 根 
据 对 齐 字段 align (默认 为 4， 处 理 代码 段 时 设 为 16) 修正 文件 偏 移 off， 
接 看 使 对 齐 段 基 址 base 与 文件 偶 移 字段 相对 于 页 大 小 取 模 的 值 相等 ， 最 


后 将 以 上 信息 保存 到 SegList 对 象 的 字段 中 。 其 中 size 字 段 既 表示 合并 后 
段 的 大 小 ， 也 表示 处 理 的 目标 文件 的 段 偶 移 。 


5) 第 30~41 行 处 理 目标 文件 的 段 。 首 先 取出 被 处 理 的 段 的 段 表 项 
信息 ， 根 据 段 对 齐 字段 sh_align 对 段 偏 移 size 对 齐 修正 。 然 后 调用 
getData 函 数 从 目标 文件 的 sh_offset 位 置 取出 sh_size 长 度 的 数据 到 buf， 
基于 这 些 信息 构建 Block 对 象 并 将 其 添加 到 数据 块 列 表 。 计 算 段 的 基 址 
并 将 其 写 回 目标 文件 的 段 表 项 ， 将 当前 段 的 大 小 累加 到 段 偏 移 size 。 


6) 第 42~43 行 将 合并 后 的 段 大 小 累加 到 基 址 字段 base， 同 时 将 段 大 
小 系 加 a 到 文件 偏 移 字 段 off， 为 下 一 个 类 型 的 SegList 的 地 址 空间 分 配 提 
供 起 始 地 址 和 偏 移 信息 。 


7) 第 46~53 行 描述 了 getData 函 数 的 实现 ， 即 根据 调用 参数 读 取 日 
标 文件 offset 处 开始 长 度 为 size 的 数据 到 缓存 buf 。 


经 过 以 上 的 处 理 ， 所 有 目标 文件 内 需要 加 载 的 段 基 址 都 被 计算 出 
来 ， 地 址 空间 分 配 的 工作 结 


7.3 ”符号 解析 


符号 解析 的 主要 目的 是 计算 目标 文件 内 符号 的 线性 地 址 ， 即 可 执 
行文 件 被 加 载 到 进程 内 存 空间 之 后 符号 的 虚拟 地 址 。 目 标 文件 从 号 表 
内 保存 了 每 个 定义 的 从 号 相对 于 所 在 段 基 址 的 偏 移 ， 当 段 的 地 址 空间 
分 配 结束 后 每 个 段 的 基 址 都 被 确定 下 来 ， 因 此 符号 地 址 可 以 使 用 如 下 
公 双 可 征 : 


符号 地 址 = 段 基 址 + 符号 相对 段 基 址 的 偶 移 


不 过 在 计算 符号 地 址 之 前 ， 仍 需要 做 一 些 准备 工作 。 首 先 需要 扫 
描 目 标 文件 内 的 符号 表 ， 获 取 符号 的 定义 与 引用 的 信息 ， 即 7.1 节 描述 
的 导出 符号 集合 和 导入 符号 集合 。 其 次 ， 需 要 对 导入 符号 集合 和 导出 
符号 集合 进行 合法 性 验证 。 符 号 验证 包含 两 个 方面 

1) 符号 重 定义 ， 即 导出 符号 集合 存在 同名 的 符号 。 由 于 目标 文件 


链接 时 ， 对 符号 的 处 理 是 按 名 检索 的 方式 ， 符 号 重 定义 将 导致 引用 该 
符号 的 文件 无 法 确定 应 该 具体 使 用 哪个 符号 。 


2) 符号 未 定义 ， 即 导入 符号 集合 包含 导出 集合 不 存在 的 从 号 。 当 
目标 文件 引用 的 外 部 符号 在 其 他 目标 文件 内 找 不 到 对 应 的 定义 时 ， 融 
无 法 确定 符号 的 地 址 。 


一 旦 出 现 符 号 重 定 义 或 未 定义 的 情况 ， 链 接 占 的 工作 束 无 法 继续 
进行 。 因 此 ， 我 们 将 符号 解析 分 为 两 个 阶段 :符号 引用 验证 和 符号 地 
址 解析 。 只 有 符号 引用 验证 通过 后 ， 才 继续 符号 地 址 解析 的 流程 。 

图 7-4 接 述 了 符号 解析 的 流程 。 


1) 符号 解析 开始 时 ， 定 义 了 两 个 空 集 。Export 表 示 导 出 符号 集 


Import 表 示 导 入 符号 集合 。 


小 


2) 扫描 所 有 目标 文件 符号 表 的 所 有 符号 ， 如 果 符 号 是 导出 符号 且 

不 在 导出 人 符号 集合 Export 内 ， 则 将 符号 添加 a 到 Export 集 合 ， 否 则 报告 

号 重 定义 错误 ， 退 出 符号 解析 流程 。 如 采 符 号 是 导入 符号 ， 则 将 符号 
从 


添加 到 导入 符号 


合 Import 。 


3) 所 有 的 目标 文件 符号 表 扫 描 结 束 后 ， 计 算 导 入 符号 集合 Import 
与 导出 符号 集合 的 差 集 Undef。Undef 集 合 记录 了 所 有 未 定义 的 符号 集 
合 ， 只 有 该 集合 为 至 时 才 继 续 计 算 导 入 符号 集合 Export 内 符号 的 地 址 。 


否则 Undef 内 的 所 有 符号 都 是 未 定义 符号 ， 需 要 退出 符号 解析 流程 。 


Export =[]. Import = 


图 7-4 符号 解析 流程 


由 于 符号 解析 依赖 于 导入 符号 和 导出 符号 这 两 个 集合 ， 首 移 看 这 


两 个 集合 的 构造 。 


1 void Linker::collectInfo() { 

2 for(int i=0;i<elfs.size();++i) { 
3 Elf_file*elf=elfs[i]; 

4 / /记录 段 表 信息 


for(int i=0;i<segNames.size();++i) { 
if(elf->shdrTab.find(segNames[i]) 
!= elf->shdrTab.end())t{ 
segLists[segNames[i]]->ownerList.push_ back(elf); 


POONO 


20 
// 符 号 引用 者 


21 
/ /符号 提供 者 


25 
// 符 号 引用 者 


26 
/ /符号 提供 者 


1) E 


/ /记录 符 号 引用 信息 


了 以 


for(hash_map<string,Elf32 Sym*,string hash>::iterator 
symIt=elf->symTab.begin(); 
symIt!=elf->symTab.end();++symIt) { 
if(ELF32_ST_BIND(symIt->second->st_info) 
== STB_GLOBAL) { 
SymLink*symLink=new SymLink(); 
symLink->name=symIt->first; // 符 


if(symIt->second->st_shndx==STN_UNDEF) { // 导 
symLink->recv=elf; 
symLink->prov=NULL; 


symLinks.push_back(symLink); 


} 

else { 
symLink->recv=NULL; 
symLink->prov=elf; 


symDef .push_back(symLink); 


函数 collectInfo 用 于 收集 目标 文件 的 信息 。 第 3~10 行 扫描 了 目标 


文件 的 段 信 息 ， 将 ELF 文 件 对 象 放 入 段 地 址 空间 分 配 使 用 的 数据 结构 


segList 中 。 


2) 第 11~30 行 扫描 目标 文件 内 符号 的 信息 。 对 于 每 个 ELF 目 标 文 
件 ， 只 处 理 符 号 表 中 标识 为 STB_GLOBAL 的 全 局 类 型 的 符号 。 对 于 符 


号 解析 来 说 ， 并 不 关心 局 部 符号 的 信息 。 这 里 岔 开 一 个 话题 ， 在 ELF 目 
标 文 件 的 段 表 项 数据 结构 中 ， 符 号 表 段 表 项 的 sh_info 字 段 记录 了 符号 
表 内 第 一 个 全 局 符号 的 索引 。 链 接 右 可 以 直接 从 这 个 乏 引 位 置 开 始 扫 
搞 符 号 圾 ， 获 取 所 有 的 全 局 符号 。 不 过 我 们 在 汇编 部 生成 目标 文件 
时 ， 强 制 将 该 字段 设 为 0， 因 此 必须 对 符号 表 全 部 扫描 。 


3) 第 18 行 记录 符号 名 到 symLink 对 和 象 。 


4) 第 19~23 行 处 理 导入 符号 集合 ， 即 将 引用 该 符号 的 ELF 文 件 对 象 
记录 到 symLink 对 象 的 recv 字 段 ， 由 于 并 不 知道 哪个 目标 文件 定义 了 该 
符号 ， 因 此 将 prov 字 段 设置 为 空 ， 最 后 将 symLink 对 象 记录 到 导入 符号 

全 


合 SymLinks。 


5) 第 24~28 行 处 理 导出 符号 集合 ， 即 将 定义 该 符号 的 ELF 目 标 文件 
对 象 记录 到 symLink 对 象 的 prov 字 段 ， 由 于 一 个 符号 可 能 会 被 多 个 目标 
文件 引用 ， 因 此 recv 字 段 设置 为 空 ， 最 后 将 symLink 对 象 记 录 到 导出 符 


号 集合 symDef 。 


有 了 导出 符号 集合 和 导入 符号 集合 ， 搂 下 来 便 可 以 进行 符号 引用 


验证 的 工作 。 


7.31 得 号 引用 验证 


根据 前 面 对 符 号 解析 流程 的 描述 ， 可 以 很 容易 实现 符号 引用 验证 
算法 。 不 过 ， 在 说 明 符 号 验证 算法 实现 之 前 先 说 明 一 个 细节 问题 。 我 
们 知道 ， 目 标 文件 和 可 执行 文件 有 一 个 很 大 的 区 别 : 目标 文件 的 文件 
头 的 程序 入 口 点 e_entry 字 段 为 0， 而 可 执行 文件 的 程序 入 口 点 是 一 个 线 
性 地 址 。 这 里 我 们 需要 先 假定 程序 的 入 口 地 址 被 记录 到 一 个 名 
为 "@start" 的 符号 内 ， 显 然 这 个 符 豆 不 可 能 是 编译 禹 生成 的 符号 名 。 为 
了 保证 链接 万 可 以 找到 程序 入 口 点 ， 那 么 符号 引用 验证 阶段 必须 强制 
要 求 导 出 “@start”* 符 号 。 至 于 “@start” 符 号 的 提供 者 ， 可 以 暂时 认为 来 
源 于 一 个 已 有 的 目标 文件 。 关 于 程序 入 口 点 的 讨论 会 在 7.5 了 详细 展 


基于 以 上 的 讨论 ， 符 号 引用 验证 的 算法 实现 为 : 


1 #define START 


"@start" 


2 

3 bool Linker::symValid 

() I 

4 bool flag=true; 

5 startOwner=NULL,; 

6 for(int i=0;i<symDef.size();++i) { 
7 // 记 录入 口 点 

8 if(symDef[i]->name==START 

) { 
9 startOwner=symDef[i]->prov; 
10 


} 
11 for(int j=i+1;j<symDef.size();++]j]) { 


12 // 符 号 重 定义 


13 if(symDef[i]->name==symDef[j]->name) { 

14 printf("symbol %s redefinition in %s and %s.\n", 
15 symDef[i]->name.c_str(), 

16 symDef[i]->prov->elf_dir, 

17 symDef[j]->prov->elf_dir 

18 ); 

19 flag=false,; 

20 

21 } 

22 


} 
23 。 // 找 不 到 入 口 点 


24 if(startOwner==NULL) { 


25 printf("can not find entrypoint Symbol %s.\n",START); 
26 flag=false; 

27 

28 for(int i=0;i<symLinks.size();++i) { 

29 for(int j=0;j<symDef.size();++j) { 

30 /V/ 记录 符号 引 

31 if(symLinks[i]->name==symDef[j]->name) { 
32 symLinks[i]->prov=symDef[j]->prov; 
33 break; 

34 } 

35 } 

36 / /符号 未 定义 

37 if(symLinks[i]->prov==NULL) { 

38 printf("undefined Symbol %s in %s.\n", 
39 symDef[i]->name.c_str(), 

40 symLinks[i]->recv->elf_dir 

41 ); 

42 flag=false; 

43 } 

44 } 

45 return flag; 

46 } 


第 7~10 行 在 导出 符号 集合 内 搜索 名 为 STARI 的 符号 ， 如 采 找 


1) 
不 到 该 符号 则 在 第 23~27 行 报告 “ 找 不 到 程序 入 口 点 ”链接 错误 。 


2) 第 11~21 行 搜索 导出 集合 内 是 否 有 重 名 的 符号 ， 一 旦 出 现 重 名 


符号 ， 则 报告 “符号 重 定义 ”链接 错误 ， 并 指出 符号 冲突 的 目标 文件 。 


3) 第 28~44 行 处 理 符号 引用 的 情况 。 第 29~35 行 找 出 导出 符号 集 
合 与 导入 符号 集合 都 包含 的 符号 ， 这 属于 符号 引用 找到 了 符号 定义 。 
因此 将 符号 在 导入 符号 集合 的 symLink 对 象 的 prov 字 段 记 录 为 定义 符号 
的 目标 文件 ， 即 符号 在 导出 符号 集合 的 symLink 对 象 的 prov 字 段 所 指示 
的 目标 文件 内 。 


4) 第 36~43 行 处 理 符 号 未 定义 的 情况 。 如 果 扫 描 完 导出 符号 集合 
都 没有 找到 被 导入 的 符号 ， 则 报告 “符号 未 定义 ”链接 错误 ， 并 给 出 引 
用 符号 的 目标 文件 。 


符号 引用 验证 函数 symValid 调 用 结束 后 ， 如 果 返 回 true 则 继续 符号 
解析 的 流程 ， 否 则 终止 链接 器 的 工作 。 


7.3.2 ”符号 地 址 解析 


符号 引用 验证 过 程 中 除了 对 导入 符号 集合 和 导出 符号 集合 进行 合 
法 性 验证 之 外 ， 还 “顺便 ”记录 了 定义 导入 符号 的 目标 文件 ， 以 方便 对 
符号 地 址 进行 解析 。 


具体 来 说 ， 符 号 地 址 解析 分 为 两 个 步骤 : 
1) 扫描 所 有 ELF 目 标 文件 的 本 地 符号 ， 计 算 本 地 符号 的 地 址 。 


2) 扫描 所 有 导入 集合 的 符号 ， 将 符号 地 址 传递 到 引用 该 符号 的 目 
标 文件 的 符号 表 内 。 


1 void Linker::symParser 


( 
2 for(int i=0;i<elfs.size();++i) { 

3 Elf_ file* elf=elfs[i]; 

4 for(hash_map<string,Elf32_ Sym*,string_hash>::iterator 
5 symIt=elf->symTab ,begin()， 

6 symIt!=elf->symTab.end();++symIt) { 

7 


// 所 有 本 地 符号 
8 Elf32_Sym*sym=symIt->second; 
9 if(sym->st_shndx!=STN_UNDEF) { 
10 string segName=elf->shdrNames[sym->st_shndx]; 
11 sym->st_value+=elf->shdrTab[segName]->sh_addr,; 
12 
13 } 
14 } 
15 
16 for(int i=0;i<symLinks.size();++i) { 
17 // 所 有 符号 引 F 
18 string name = symLinks[i]->name,; 
19 Elf32_Sym*provsym=symLinks[i]->prov->symTab[name]; 
20 Elf32_Sym*recvsym=symLinks[i]->recv->symTab[name]; 


21 recvsym->st_value=provsym->st_value,; 


22 } 
23 } 


1) 函数 symParser 执 行 符号 地 址 解析 的 流程 。 第 2~14 行 计算 每 个 
目标 文件 的 本 地 符号 地 址 。 即 根据 符号 表 项 提供 的 段 索引 st_shndx 找 
到 对 应 的 段 表 项 ， 然 后 取出 段 基 址 sh_addr， 累 加 到 原 有 的 符号 地 址 

(符号 段 俩 移 ) st_value 中 ， 得 到 符号 的 线性 地 址 。 


2) 第 16~22 行 处 理 符号 引用 的 情况 。 符 号 引用 验证 函数 symvValid 
已 经 统计 了 每 个 符号 引用 所 对 应 的 符号 引用 文件 和 符号 定义 文件 ， 并 
且 在 第 一 步 中 算出 了 所 有 已 定义 的 符号 的 地 址 ， 因 此 直接 取出 目标 文 
件 中 的 符号 表 项 provsym 和 recvsym， 最 后 将 provsym 的 符号 地 址 传递 给 


recvsymBN 8] 。 


至 此 ， 得 到 了 所 有 目标 文件 中 符号 的 虚拟 地 址 ， 符 号 解析 工作 完 
ss 


7.4 重 定 位 


回顾 第 6 章 对 重 定 位 表 信 息 生 成 的 描述 ， 目 标 文件 的 重 定 位 信息 包 
含 二 个 关键 的 元 素 : 重 定 位 符号 一 一 使 用 哪个 符号 的 地 址 进行 重 定 
位 ， 重 定位 位 置 一 一 在 何 处 进行 重 定位 ， 重 定位 类 型 一 一 用 何 种 方法 


进行 重 定位 。 


首先 ， 由 于 重 定位 操作 依赖 于 重 定位 符号 的 地 址 ， 因 此 在 符号 解 
析 完 成 前 是 无 法 进行 重 定位 的 。 重 定位 符号 已 经 在 收集 ELE 文 件 信息 时 
记录 到 RelItem 的 relName 字 段 内 。 


其 次 ， 重 定位 位 置 可 以 根据 重 定位 段 以 及 重 定位 位 置 的 段 内 偏 移 
计算 得 出 。 


重 定位 位 置 = 重 定位 段 基 址 + 重 定 位 位 置 的 段 内 偏 移 


重 定位 段 已 经 在 收集 ELEF 文 件 信 息 时 记录 到 RelItem 的 segName 字 段 
内 ， 根 据 段 名 可 以 取得 段 表 项 对 象 ， 继 而 获得 段 基 址 。 人 至 于 重 定位 位 
置 的 段 内 偏 移 可 以 由 RelItem 有 的 rel 字 上 段 获得 。 


最 后 ， 重 定位 类 型 有 两 种 ， 绝对 地 址 重 定 位 和 相对 地 址 重 定位 。 
根据 不 同 的 重 定位 类 型 对 段 数据 进行 修正 操作 是 重 定位 的 核心 。 


绝对 地 址 重 定 位 操作 比较 简单 ， 需 要 绝对 地 址 重 定 位 的 地 方 一 般 
都 是 产 于 对 符号 地 址 的 直接 引用 ， 由 于 汇编 右 不 能 确定 符号 的 虚拟 地 
址 ， 最 终 使 用 0 作为 占 位 符 填充 了 引用 符号 地 址 的 地 方 。 因 此 ， 绝 对 地 
址 重 定位 操作 只 需要 直接 填写 重 定位 符号 的 虚拟 地 址 到 重 定 位 位 置 即 
可 。 


绝对 重 定位 地 址 = 重 定位 符号 地 址 


相对 地 址 重 定 位 稍微 复杂 一 点 ， 需 要 相对 地 址 重 定位 的 地 方 一 般 
都 古 源 于 跳 转 类 指令 引用 了 其 他 文件 的 从 号 地 址 。 虽 然 汇 编 右 不 能 确 
定 被 引用 符号 的 虚拟 地 址 ， 但 是 并 不 使 用 0 作为 占 位 符 填 充 引 用 符号 地 
址 的 地 方 ， 而 是 使 用 “ 重 定位 位 置 相对 于 下 一 条 指令 地 址 的 偶 移 * 填 殉 
该 位 置 。 链 接 紫 进行 相对 地 址 重 定位 操作 时 ， 会 计算 符号 地 址 相对 于 
重 定 位 位 置 的 偏 移 ， 然 后 将 该 仿 移 量 宗 加 到 重 定位 位 荀 保存 的 内 容 。 
这 么 说 起 来 有 点 绕 ， 其 实 本 质 上 仪 仅 是 计算 的 转换 而 已 。 


相对 重 定位 地 址 = 重 定位 符号 地 址 - 重 定 位 位 置 + 重 定位 位 置 数据 内 


驴 


= ( 重 定 位 符号 地 址 - 重 定位 位 置 ) + ( 重 定位 位 置 -下 一 条 指令 地 
址 ) 


= 重 定位 符号 地 址 -下 一 条 指令 地 址 


根据 上 面 的 计算 ， 可 以 很 清晰 地 看 出 最 终 计 算 的 相对 重 定位 地 址 
正 是 符号 地 址 相对 于 下 一 条 指令 地 址 的 偏 移 ， 也 正 符合 跳 转 类 指令 对 
操作 数 的 要 求 。 


至 于 为 何 对 相对 地 址 重 定位 进行 如 此 “每 琐 ?” 的 计算 ， 笔 者 认为 按 
照 这 样 的 方式 ， 对 于 不 同 长 度 和 设计 结构 的 指令 ， 只 要 重 定位 位 置 的 
数据 按照 相对 地 址 的 方式 进行 修正 ， 那 么 相对 重 定位 地 址 的 计算 方式 
不 变 ， 区 别 仅仅 是 重 定位 位 置 处 的 数据 的 值 不 同 。 比 如 对 于 Intel32 位 跳 
转 指令 该 位 置 数据 值 是 -4， 对 于 Intel64 位 跳 转 指令 该 位 置 数据 值 是 -8 。 


下 面 结合 一 个 例子 描述 重 定位 的 过 程 。 


如 图 7-5 所 示 ， 重 定位 表 内 有 三 个 重 定位 项 ， 第 一 项 是 相对 地 址 重 
定位 类 型 ， 剩 余 两 项 是 绝对 地 址 重 定位 类 型 。 


section .text 


re 
”= 


1 Fa 
27 


a 


wee Se 


var dd1 01 00 00 00 


section .data 


ext dd 0 00 00 00 00 


图 7-5” 重 定位 


对 于 第 一 个 重 定 位 项 ， 重 定位 符号 fun 符 号 解析 后 的 地 址 是 
0x080480cc， 重 定位 位 置 是 代码 段 “.text* 的 基 址 加 上 重 定位 位 置 的 段 内 
偏 移 ， 即 0x08048080+0x21=0x080480a1， 此 处 保存 的 数据 值 是 -4。 根 
据 相 对 重 定 位 地 址 的 计算 方法 0x080480cc-0x080480al+ (-4) =0x27， 
即 最 终 的 fun 地 址 相对 于 call 指 令 下 一 条 指令 地 址 0x080480a5 的 偏 移 。 


对 于 第 二 个 重 定位 项 ， 重 定位 符号 ext 符 号 解析 后 的 地 址 是 
0x080490f8， 重 定位 位 置 是 代码 段 “.text” 的 基 址 加 上 重 定位 位 置 的 段 内 
偏 移 ， 即 0x08048080+0x38=0x080480b8， 此 处 保存 的 数据 值 是 0。 根 据 
绝对 重 定位 地 址 的 计算 方法 ， 此 处 直接 修改 为 0x080490f8， 即 ext 的 地 
址 即 可 。 类 似 地 ， 对 于 第 三 个 重 定位 项 的 处 理 不 再 发 述 ， 需 要 注意 的 
是 ， 无 论 是 绝对 地 址 还 是 相对 地 址 ， 都 是 以 小 字 节 序 的 方式 保存 的 。 


重 定位 操作 的 代码 实现 如 下 : 


1 Vvoid Linker::relocate 


() 

2 I 

3 for(int i=0;i<elfs.size();++i) { 

4 vector<RelItem*>tab=elfs[i]->relTab; 

5 for(int j=0;j<tab.size();++j) { 

6 // 重 定位 符号 

7 string relName=tab[j]->relName; 

8 Elf32_Sym*sym=elfs[i]->symTab[relName]; 
9 

10 // 重 定位 段 

11 string segName=tab[j]->segName; 

12 Elf32_Shdr*seg=elfs[i]->shdrTab[segName]; 


14 // 重 定位 符号 地 址 


15 unsigned int symAddr 

=sym->st_value; 

16 

17 // 重 定位 位 置 

18 unsigned int offset=tab[j]->rel->r_offset,; 
19 unsigned int relAddr 
=seg->sh_addr+offset; 

20 

21 // 重 定位 类 型 

22 unsigned char type 
=ELF32_R_TYPE(tab[j]->rel->r_info); 

23 

24 segLists[segName]->relocAddr (relAddr, type, symAddr ); 
25 

26 } 

27 } 


1) 汞 数 relocate 涡 历 所 有 日 标 文 件 的 重 定 位 表 relTab， 取 出 每 个 重 
定位 表 项 进行 处 理 。 


2) 第 6~8 行 取出 重 定位 符号 名 称 relName， 并 根据 符号 表 symTab 得 


到 符号 表 项 sym 。 


3) 第 10~12 行 取出 重 定位 段 名 称 segName， 并 根据 段 表 shdrTab 得 
到 段 表 项 seg。 


4) 第 14~15 行 从 符号 表 项 内 读 取 符号 的 线性 地 址 symAddr 。 


5) 第 17~19 行 从 重 定位 表 项 取出 重 定位 位 置 的 段 内 偏 移 ， 并 根据 
重 定 位 段 的 基 址 计算 重 定位 位 置 的 线性 地 址 。 


6) 第 21~22 行 从 重 定位 表 项 内 取出 重 定位 类 型 type。 


7) 第 24 行 调用 SegList 的 relocAddr 函 数 进行 重 定位 操作 。 


1 void SegList::relocAddr 


( 

之 unsigned int relAddr, 

3 unsigned char type, 

4 unsigned int symAddr) { 

5 

6 / /查找 修正 地 址 所 在 位 置 

7 unsigned int reloffset=relAddr-baseAddr; 

8 Block*block=NULL; 

9 for(int i=0;i<blocks.size();++i) 

10 

11 unsigned int start=blocks[i]->offset; 
12 unsigned int end=start+blocks[i]->size,; 
13 if(start <= reloffset && reloffset < end) { 
14 block=blocks[i]; 

15 break; 

16 } 

17 } 

18 


19 // 地 址 修正 


20 int *pAddr=(int*)(block->data+reloffset-block->offset ) ， 
21 if(type==R_386_32) { // 绝 对 地 址 修 


22 *pAddr=symAddr; 


} 
24 else if(type==R 386_PC32) { // 相 对 地 址 修 


25 *pAddr=symAddr -relAddr+*pAddr; 


1) 函数 relocAddr 执 行 重 定位 操作 ， 即 根据 重 定位 项 描述 的 信息 修 
正 段 内 二 进 制 数据 。 


2) 第 6~17 行 查询 重 定位 位 置 的 地 址 所 在 的 数据 块 Block。 


3) 第 7 行 计算 出 重 定位 位 置 相对 于 合并 后 段 基 址 的 偏 移 relOffset 。 


4) 第 11~12 行 计算 每 个 Block 数 据 块 的 起 始 地 址 start 和 结束 地 址 
end， 通 过 比较 relOffset 是 否 落 在 [start，end) 地 址 区 间 内 以 查询 重 定位 
位 置 所 在 的 数据 块 。 查 询 得 到 的 数据 块 记录 到 block 变 量 中 。 由 于 重 定 
位 表 项 由 汇编 器 生成 ， 因 此 必然 存在 一 个 数据 块 满足 查询 条 件 ， 即 
block 不 会 为 NULL 。 


5) 第 19~26 行 进行 重 定位 操作 。 由 于 block 的 offset 字 段 记录 了 block 
相对 于 合并 后 段 基 址 的 偏 移 ，relOffset 记 录 了 重 定位 位 置 相对 于 合并 后 
段 基 址 的 偏 黎 ， 因 此 两 者 之 差 便 是 重 定位 位 置 相对 于 重 定位 数据 块 起 
始 地 址 的 偏 移 。 根 据 block 保 存 的 数据 块 的 缓冲 区 地 址 data 和 该 偏 移 可 
以 得 到 重 定位 位 置 在 缓冲 区 内 的 地 址 ， 将 该 地 址 记录 到 int 指 针 pAddr 。 


6) 第 21~23 行 进行 绝对 地 址 修正 。 即 将 符号 地 址 symAddr 写 入 
pAddr 指 同 的 内 存 区 域 。 通 过 这 样 的 方式 “恰好 ”将 pAddr 指 同 的 数据 按 
照 小 字 贡 序 修改 为 ymAddr 的 值 。 


7) 第 24~26 行 进行 相对 地 址 修正 。 即 将 符号 地 址 symAddr 减 去 重 定 
位 位 置 的 地 址 relAddr， 然 后 素 加 pAddr 指 回 的 数据 区 域 原 本 保存 的 值 
(-4) ， 得 到 最 终 的 相对 地 址 ， 并 将 其 写 回 到 pAddr 指 向 的 数据 区 域 。 


重 定位 操作 结束 后 ， 链 接 器 的 核心 工作 已 全 部 完成 。 


7.5 程序 入 口 点 与 运行 时 库 


在 7.3.1 攻 曾 提 到 程序 入 口 点 地 址 被 保存 在 一 个 名 为 “<@start" 的 特殊 
符号 内 ， 而 定义 该 竺 号 的 目标 文件 并 不 是 编译 善 根据 产 代 码 生 成 的 。 


那么 这 束 有 两 个 问题 需要 弄 清楚 : 


1) 为 什么 引入 新 的 符号 而 不 是 main 函 数 作为 程序 入 口 点 ? 
2) 定义 新 的 符号 的 目标 文件 该 如 何 得 到 ? 


首先 解释 第 一 个 问题 。 根 据 第 3 章 代码 生成 的 逻辑 ， 对 于 main 函 数 
生成 的 汇编 代码 厂 段 形式 如 下 : 


1 global main 
2 main: 


push ebp 
mov ebp, esp 
sub esp, ? 


mov esp,ebp 
pop ebp 
ret 


‘OO0NOPW 


本 质 上 讲 ，main 函 数 与 普通 的 函数 并 没有 太 大 的 区 别 : 包含 函数 
入 栈 代码 〈 第 3~5 行 ) 、 画 数 体 代 码 〈 第 6 行 省 略 内 容 ) 和 函数 出 栈 代 
码 〈 第 7~9 行 ) 。 假 定 使 用 main 函 数 作为 程序 入 口 点 ， 即 将 main 符 号 的 
线性 地 址 写 入 ELF 文 件 头 部 的 e_entry 字 段 ， 那 么 程序 加 载运 行 后 会 从 


main 符 号 的 地 址 位 置 读 取 指 令 开始 执行 。 整 个 main 函 数 执行 过 程 不 会 
出 现任 何 问题 ， 直 到 ret 指 令 执行 结束 后 。 根 据 ret 指 令 的 语义 ， 程 序 会 
从 栈 顶 取出 32 位 的 数据 作为 返回 地 址 ， 然 后 跳 转 到 该 地 址 继续 执行 ! 
然而 ， 程 序 执行 main 函 数 之 前 ， 栈 顶 保 存 的 数据 是 未 知 的 ， 因 此 导致 
程序 的 最 终 行 为 无 法 预测 ， 最 常见 后 果 和 是 触发 进程 <Segment Fault”。 


因此 ， 为 了 证 程序 可 以 “优雅 ?地 退出 ， 必 须 构造 一 个 main 函 数 的 
调用 者 完成 函数 调用 后 的 “清理 工作。 这 也 为 第 二 个 问题 提供 了 解决 
办 法 。 


1 global @start 


2 Qstart: 

3 i 

4 call main 
5 i 

6 mov eax, 1 
7 mov ebx, 0 
8 int 128 


在 Linux 的 系统 调用 中 ， 调 用 号 为 1 的 系统 调用 是 exit， 使 用 exit 可 
以 使 进程 正常 退出 。 调 用 exit 的 让 编 代 码 如 第 6~8 行 所 示 ， 其 中 寄存 右 
eax 保 存 exit 系 统 调用 号 1，ebx 保 存 exit 系 统 调用 的 参数 0，int 指 令 触 发 
exit 系 统 调 用 退出 进程 。 


符号 “@start”* 处 的 代码 会 调用 main 函 数 后 使 用 exit 系 统 调用 退出 进 
程 ， 在 调用 main 函 数 前 后 可 以 执行 一 些 初 始 化 工作 (第 3 行 省 略 内 容 ) 


和 清理 工作 (第 5 行 省 略 的 内 容 ) 。 由 于 我 们 设计 的 编译 器 main 函 数 的 
定义 很 简单 ， 因 此 并 不 需要 初始 化 和 请 理 的 操作 。 


将 上 述 代 码 保存 在 start.s， 并 使 用 我 们 实现 的 汇编 如 处 理 后 ， 可 以 
得 到 目标 文件 start.o。 然 后 ， 使 用 readelf 工 具 查 看 start.o 的 符号 表 。 


Symbol table '.symtab' contains 3 entries: 


Num: Value Size Type Bind Vis Ndx Name 
0: 00000000 © NOTYPE LOCAL DEFAULT UND 
1 00000000 © NOTYPE GLOBAL DEFAULT 工 
@start 
2: 00000000 © NOTYPE GLOBAL DEFAULT UND 


main 


可 以 发 现 日 标 文件 start.o 包 含 一 个 导出 符号 “@start”， 一 个 导入 符 
号 “main”。 将 start.o 和 汇编 絮 生 成 的 目标 文件 一 起 区 给 链接 絮 处 理 ， 如 
果 其 他 日 标 文件 没有 定义 main 范 数 ， 则 会 触发 “main 从 号 未 定义 ”链接 
错误 。 至 于 链接 器 生成 的 可 执行 文件 的 程序 入 口 点 ， 自 然 是 设置 为 符 
号 “@start” 的 线性 地 址 即 可 。 


如 图 7-6 所 示 ， 从 整个 编译 系统 的 工作 流程 来 看 ，start.o 文 件 是 编译 
系统 正 溃 工作 必需 的 目标 文件 。 无 论 编 译 系统 处 理 的 源 代 码 如 何 定 


义 ， 在 最 终 的 链接 阶段 必须 将 start.o 和 其 他 目标 文件 一 起 链接 才能 正常 
生成 可 执行 文件 。 对 于 这 样 的 目标 文件 ， 有 一 个 统一 的 名 称 一 一 “语言 


运行 时 库 ”。 显 然 ，start.o 应 该 是 最 简单 的 运行 时 库 了 ， 它 只 负责 引导 


调用 main 芳 数 ， 别 的 什么 也 没 做 。 


图 7-6 ”编译 系统 工作 流程 


根据 类 似 的 方式 ， 可 以 很 方便 地 扩展 程序 设计 语言 运行 时 库 的 功 
能 。 比 如 可 以 定义 printf.s 实 现 标准 输出 函数 printf， 经 过 汇编 右 处 理 后 
生成 printf.o 目 标 文 件 。 只 需要 源码 声明 使 用 了 printf 函 数 ， 在 链接 时 将 
printf.o 链 接 到 可 执行 文件 ， 即 可 在 高 级 语言 中 实现 标准 输出 的 功能 。 
更 进一步 地 ， 可 以 直接 定义 math.c 文 件 实 现 数学 相关 的 函数 ， 经 过 编译 
器 和 汇编 器 处 理 后 生成 math.o 目 标 文 件 ， 这 样 高 级 语言 承 可 以 进行 复杂 
的 数学 计算 。 


如 果 在 编译 系统 中 实现 了 预 处 理 器 并 支持 include 指 令 ， 那 么 像 
printf 琴 数 或 math.c 实 现 的 玉 数 声明 语句 整 可 以 放 入 类 
似 “stdio.h” 或 “math.h” 这 样 的 头 文 件 内 。 如 琳 链 接骨 支持 输入 压缩 包 格 
式 的 文件 ， 那 么 像 printf.o 和 math.o 这 样 的 目标 文件 可 以 打包 放 在 类 
似 "libc.a” 这 样 的 压缩 包 中 ， 链 接 器 只 需要 在 链接 之 前 将 压缩 包 解 压 即 
可 。 编 写 高 级 语言 程序 时 ， 只 要 包含 需要 的 头 文件 ， 并 在 链接 阶段 包 
台 对 应 的 库 文 件 ， 束 可 以 使 用 更 强大 的 语言 特性 。 不 知 不 沉 ， 我 们 发 
现 这 样 的 实现 方式 已 经 与 GCC 非常 接近 了 。 


相 比 而 言 ，GCC 的 C 语 言 运行 时 库 (C Runtime Library，CRT) 复 
杂 得 多 。 回 顾 第 1 章 描述 GCC 静态 链接 工作 流程 时 涉及 的 5 个 目标 文件 
crt1.0 、crti.o、crtbeginT.o 、crtend.o、crtn.o0， 以 及 3 个 静态 库 libgcc.a、 


libgcc_eh.a、libc.a， 这 些 文件 的 功能 分 别 为 : 


1) crt1.0: 定义 程序 入 口 点 “_start”*、 调 用 “init? 段 的 代码 执行 程序 
的 初始 化 、 调 用 main 函 数 、 调 用 “.finit*? 段 的 代码 执行 程序 的 清理 操作 。 
早期 版 本 为 crt0.o， 不 支持 “.init* 和 “.finit* 段 。 


2) crti.o: 定义 “init" 段 的 函数 入 栈 代 码 、 调 用 C++ 全 局 构造 代码 。 


3) crtn.o: 定义 “finit" 段 的 西数 出 栈 代码 、 调 用 C++ 全 局 析 构 代 


4) crtbeginT.o: 定义 C++ 全 局 构造 代码 。 

5) crtend.0: 定义 C++ 全 局 析 构 代码 。 

6) libc.a 定义 C 语 言 标准 库 代 码 。 

7) libgcc.a: 定义 由 于 平台 差异 性 的 辅助 画 数 代 码 。 
8) libgcc_eh.a: 定义 C++ 异常 处 理 的 平台 相关 代码 。 


由 此 可 见 ， 对 于 一 种 高 级 语言 ， 除 了 编译 侣 、 汇 编 器 和 链接 颖 十 
必 不 可 少 的 部 分 之 外 ， 语 言 的 运行 时 库 也 是 不 可 或 缺 的 一 部 分 。 昌 然 


我 们 实现 的 编译 系统 下 在 弄 清 高 级 语言 实现 的 细 世 ， 但 是 绝 不 能 名 略 
语言 运行 时 库 的 地 位 。 功 能 丰富 的 运行 时 库 ， 可 以 让 高 级 语言 的 表达 
能 力 更 加 强大 。 


7.6 ”可 执行 文件 生成 


链接 器 的 最 终 输出 是 ELF 格 式 的 可 执行 文件 。 第 5 章 描 述 了 ELF 文 
件 的 通用 结构 ， 而 在 链接 器 生成 可 执行 文件 时 ， 只 关心 可 执行 文件 的 
ELF 文 件 结构 。 


六 件 头 (ELF Header ) S7 


程序 头 表 ( Program Header Table ) (32* 程 厅 头 表 项 个 数 ) 


代 公 投 (--t@ 考 


数据 段 (data) 
段 表 字符 串 表 ( . shstrtab ) 
段 表 (Section HeaderTable) (40*# 有 段 表 项 个 数 ) 


符号 表 (. symtab ) (16*# 行 号 表 项 个 数 ) 
字符 串 表 ( . strtab ) 


图 7-7 ELF 可 执行 文件 


如 图 7-7 所 示 ， 在 静态 链接 右 生 成 的 可 执行 文件 中 ， 不 会 包含 重 定 
位 表 。 程 序 头 表 是 ELF 可 执行 文件 独 有 的 结构 ， 记 杂 需 要 加 载 到 进程 
地 址 空间 的 段 。 代 码 段 来 源 于 所 有 的 目标 文件 的 代码 段 拼接 重 定位 后 
的 数据 块 ， 数 据 段 来 源 于 所 有 的 目标 文件 的 数据 段 拼接 重 定位 后 的 数 


据 块 。 符 号 表 段 来 产 于 所 有 目标 文件 定义 的 全 局 符号 ， 其 中 符号 表 项 
的 st_shndx 字 段 需要 根据 最 终生 成 的 段 表 结构 更 新 。 另 外 ，ELF 文 件 
头 、 段 表 、 段 表 字 符 串 表 、 字 符 串 表 在 ELF 文 件 结构 确定 后 可 以 计算 
得 出 。 


与 汇编 絮 的 目标 文件 生成 的 流程 相似 ， 可 执行 文件 的 生成 也 可 以 


分 为 两 个 阶段 。 


1) ELF 文 件 结构 组 装 。 根 据 链接 器 的 处 理 得 到 ELF 可 执行 文件 的 
信息 ， 生 成 ELEF 文 件 结构 。 包 后 文件 头 各 个 字段 的 值 、 串 表 的 内 容 以 
及 引用 串 表 内 的 字符 串 偏 移 信息 (如 有 段 表 项 的 段 名 字段 sh_name、 符 


号 表 项 的 符号 名 字段 st_name) 、 符 号 表 项 的 st_shndx 字 段 等 。 


2) ELF 文 件 结构 输出 。 输 出 文件 头 、 程 序 头 表 、 代 码 段 、 数 据 
段 、 段 表 字 符 溃 表 、 段 表 、 符 号 表 、 字 符 串 表 的 内 容 。 任 何 两 个 文件 
结构 知 因 为 对 齐 需要 产生 了 至 际 ， 则 使 用 0 填充 补 齐 。 


首 移 看 ELF 可 执行 文件 结构 的 组 装 。 


1 void Elf_file::assemObj 


(Linker* linker) { 
/ /所 有 段 名 


vector<string> AllSegNames,; 

AllSegNames.push_back(""); 

vector<string> segNames = linker->segNames; 

for (int i=0;i<segNames.size();++1i){ 
AllSegNames .push_back(segNames[i]); 


} 
AllSegNames.push_back(".shstrtab"); 
AllSegNames.push_back(".symtab"); 


POONOROW 


© 


AllSegNames.push_back(".strtab"); 


// 段 索引 


hash_map<string,int,string_hash> shIndex; 
// 段 名 索引 


hash_map<string,int,string_hash> shstrIindex; 
/ /建立 索引 


for (int i=0;i<AllSegNames.size();++i){ 
string name = AllSegNames[i]; 
shIindex[name] = i; 
shstrIindex[name] = shstrtab.size(); 
shstrtab += name; 


shstrtab.push_back('\0'); 


// 生 成 符号 表 


addSsym("",NULL); 

vector<SymLink*>symDef = linker->symDef; 

for (int i=0;i<symDef.size();++1i){ 
string name = symDef[i]->name,; 
Elf_file* prov = symDef[i]->prov; 
Elf32_Sym*sym = prov->symTab[name]; 


String segName = prov->shdrNames[sym->st_shndx]; 


sym->st_shndx = shIndex[segName]; 
addSym(name, sym); 


// 符 号 索引 


hash_map<string,int,string_hash> symIndex; 
/ /符号 名 索引 


hash_map<string,int,string_hash> strIindex; 
/ /建立 索引 


for (int i=0;i<symNames.size();++i){ 
string name = symNames[i]; 
SymIndex[name] = 工 
strIndex[name] = strtab.size(); 


Strtab += name ， 


strtab.push_back('\0'); 


for (int i=0;i<symNames.size();++i){ 
string name = symNames[i]; 
symTab[name]->st_name=strIindex[name]; 


56 

57 / /处 理 文件 头 

58 char magic[] = { 

// 魔 数 

59 Ox71, QOx45, Qx4c, QOx46, 

60 Ox01, Ox01, QOx01, QOx00, 

61 Ox00, QOx00, QOx00, QOx00, 

62 0x00，0x00，0x00，0x00 

63 }; 

64 

65 memcpy(&ehdr.e_ident, magic, sizeof(magic)); 

66 ehdr.e_type=ET_EXEC,; 

67 ehdr.e_machine=EM_386; 

68 ehdr.e_version=EV_CURRENT,; 

69 ehdr.e_entry=symTab[START]->st_name; 

70 ehdr.e_phoff=0,; 

71 ehdr.e_shoff=0; 

72 ehdr.e_flags=0; 

73 ehdr.e_ehsize=sizeof(E1f32_ Ehdr); 

74 ehdr.e_phentsize=sizeof (Elf32_Phdr); 

75 ehdr.e_phnum=segNames .size(); 

76 ehdr.e_shentsize=sizeof (Elf32_Shdr); 

77 ehdr.e_shnum=AllSegNames .size( ); 

78 ehdr.e_shstrndx=shIndex[".shstrtab"]; 

79 

80 int curoff = sizeof(ehdr); // 文 
件 头 ， 己 对齐 

81 

82 ehdr.e_phoff = curOff; 

/ /程序 头 表 偏 移 

83 

84 // 生 成 程序 头 表 ， 已 对 齐 

85 for(int i=0;i<segNames.size();++i){ 

86 string name=segNames[i]; 

87 Elf32_ Word flags=PF_W|PF_R; 

88 if(name==".text")flags=PF_X|PF_R; 

89 addPhdr (PT_LOAD, segLists[name]->offset, 
90 segLists[name]->baseAddr, 

91 segLists[name]->size,segLists[name]->size, 
92 flags,MEM_ALIGN); 

93 

94 curoff += e_phentsize*e_phnum; 

95 

96 // 生 成 已 有 段 表 

97 addshdr("",0,9,0,09,90,0,90,0,0); // 空 段 表 
项 

98 for(int i=0;i<segNames.size();++i){ 

99 string name=segNames[i]; 

100 Elf32_Word sh_flags=SHF_ALLOC|SHF_WRITE,; 
101 Elf32_Word sh_align=DISC_ALIGN; 


102 if(name==".text"){ 


103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
对 齐 


115 
116 


117 
118 
119 
120 
对 齐 


121 
122 
偏 移 


123 


124 
125 
126 
127 
128 


129 
130 
131 
132 
133 
对 齐 


134 
135 


136 
137 
138 
139 
140 


} 


sh_flags=SHF_ALLOC|SHF_EXECINSTR; 
sh_align=TEXT_ALIGN; 


} 
addSshdr (name, SHT_PROGBITS, sh_flags, 
segLists[name]->baseAddr, 
segLists[name]->offset, 
segLists[name]->size, 
0,0,sh_align,o0); 
curoff=segLists[name]->offset + 
segLists[name]->size; 


} 
curoff += (4-curOff%4)%4; 


/ /添加 新 的 段 表 项 


addSshdr(".shstrtab",SHT_STRTAB, 0,0,curoff, 
shstrtab.size(),SHN_UNDEF,O0,1,0); 

curoff += shstrtab.size(); 

curOff += (4-curOff%4 )%4; 


ehdr.e_shoff = curoOff; 
curoff += ehdr.e_shnum*ehdr.e_shentsize,; // 段 表 ， 


addSshdr(".symtab",SHT_SYMTAB, 0,0,curoff, 
symNames.size()*sizeof(Elf32_ Sym), 
shIndex[".strtab"],90,1,sizeof(Elf32_Sym)); 

curoff += symNames.size()*sizeof(El1f32_ Sym); // 已 对 齐 


addshdr(".strtab",SHT_STRTAB, 0,0,curoff, 
strtab.size(),SHN_UNDEF,0,1,0); 

curoff += strtab.size(); 

curOff += (4-curOff%4 )%4; 


/ /更 新 段 表 段 名 索引 


for (int i=0;i<AllSegNames.size();++i)f{ 
string name = AllSegNames[i]; 
shdrTab[name]->sh_name=shstrIindex[name]; 


} 


已 对 齐 


// 


// 


// 段 表 


// 


1) 第 2~11 行 ， 我 们 使 用 AllSegNames 记 录 所 有 的 段 名 ， 包 括 空 
段 、segNames 记 录 的 段 (需要 加 载 的 代码 段 “.text* 和 数据 
段 “.data”) ， 以 及 ELF 文 件 内 部 使 用 的 


段 : “.shstrtab”“.symtab”“.strtab”。 


2) 第 13~24 行 建立 段 索 引 shIndex 和 段 名 索引 shstrIndex。shIndex 
记录 了 每 个 段 表 项 在 AllSegNames 的 索引 位 置 ， 段 表 会 根据 
AllSegNames 记 录 的 段 名 顺序 生成 各 个 段 表 项 。shstrIndex 记 录 了 每 个 
段 名 在 段 表 字符 串 表 “.shstrtab” 内 的 位 置 ， 我 们 按 AllSegNames 的 顺序 
拼接 所 有 的 段 名 形成 段 表 字 符 串 表 ， 拼 接 时 注音 使 用 ^0’ 分 割 不 同 的 段 
J 


3) 第 26~36 行 根据 所 有 导出 符号 集合 symDef 生 成 符号 表 (首先 添 
加 空 符号 表 项 ) 。 通 过 每 个 SymLink 的 prov 字 段 得 到 定义 导出 符号 的 
ELF 文 件 ， 取 出 对 应 的 符号 表 项 。 并 根据 符号 表 项 内 的 st_shndx 字 段 取 
出 符号 在 目标 文件 内 所 在 的 段 名 。 最 后 根据 获取 该 段 名 对 应 的 段 表 项 
在 可 执行 文件 段 表 内 的 索引 ， 更 新 符号 对 象 的 st_shndx 字 段 。 


4) 第 38~49 行 建立 符号 索引 symIndex 和 符号 名 索引 strIndex 。 
symIndex 记 录 了 每 个 符号 表 项 (包括 初始 化 时 添加 的 空 符号 表 项 ) 在 
符号 名 列表 symNames 的 索引 位 置 ， 符 号 表 会 根据 symNames 记 录 的 符 
号 名 顺序 生成 各 个 符号 表 项 。strIndex 记 录 了 每 个 符号 名 在 字符 串 


表 “.strtab” 内 的 位 置 ， 我 们 按 symNames 的 顺序 拼接 所 有 的 符号 名 形成 
字符 串 表 ， 拼 接 时 注意 使 用 \0' 分 割 不 同 的 符号 名 。 


5) 第 51~55 行 扫描 符号 表 strTab， 然 后 将 每 个 符号 表 项 的 st_name 


字段 设 为 符号 名 在 字符 串 表 内 的 索引 ， 完 成 符号 表 信息 的 补充 。 


6) 第 57~78 行 处 理 ELF 文 件 头 ， 按 照 第 5 章 描述 的 ELF 文 件 头 的 内 
容 设 置 对 应 字段 。 其 中 ，e_type 设 置 为 ET_EXEC 表 示 文 件 类 型 是 可 执 
行文 件 ，e_entry 设 置 为 符号 START 的 线性 地 址 表示 程序 入 口 地 址 ， 
e_ehsize 设 置 为 sizeof (Elf32_Ehdr) 表示 文件 头 大 小 ，e_shentsize 设 置 
为 sizeof (Elf32_Shdr) 表示 段 表 项 的 大 小 ，e_phentsize 设 置 为 sizeof 

(Elf32_Phdr) 表示 程序 头 表 项 的 大 小 ，e_shnum 设 置 为 AllSegNames 
的 大 小 表示 段 表 项 个 数 ，e_phnum 设 置 为 segNames 的 大 小 表示 程序 头 
表 项 的 个 数 ，e_shstmdx 设 置 为 “.shstrtab” 的 段 索引 。 另 外 ，e_shoff 和 
e_phoff 和 暂时 初始 化 为 0， 因 为 还 未 确定 段 表 和 程序 头 表 的 文件 偏 移 。 


7) 第 80~82 行 将 curOff 初 始 化 为 ELF 文 件 头 的 大 小 ， 并 将 e_phoff 
设 为 curOff， 即 程序 头 表 起 始 位 置 。 


8) 第 84~94 行 生成 程序 头 表 。 通 过 遍历 segNames 获 取 需 要 加 载 的 
段 名 ， 并 从 segLists 取 出 合并 的 段 列表 。 对 于 代码 段 “.text”*"， 程 序 头 表 
项 的 p_flags 字 段 设 为 PF_XIPF_R， 即 可 读 可 执行 。 对 于 其 他 段 默 认 设 
置 为 PF_WIPF_R， 即 可 读 可 写 。 程 序 头 表 项 的 p_offset、p_vaddr、 和 


p_memsz 字 段 可 以 从 SegList 对 应 字段 取出 。 另 外 p_type 字 段 设 为 
PT_LOAD 表 示 段 需要 加 载 ，p_align 字 段 设 为 MEM_ALIGN 表 示 被 加 载 
段 在 内 存 中 以 4KB 对 齐 。 最 后 ， 将 curOff 与 程序 头 表 的 大 小 累加 ( 程 
序 头 表 大 小 = 程序 头 表 项 个 数 x 程序 头 表 项 大 小 ) 。 


9) 第 96~114 行 生成 空 段 表 项 和 可 加 载 的 段 表 项 。 通 过 遍历 
segNames 获 取 需 要 加 载 的 段 名 ， 并 从 segLists 取 出 合并 的 段 列 表 。 对 于 
代码 段 “.text*"， 段 表 项 的 sh_flags 字 上 段 设 为 
SHF_ALLOCISHF_EXECINSTR， 表 示 可 分 配 可 执行 ，sh_align 字 段 设 
为 TEXT_ALIGN， 表 示 段 按照 16 字 节 对 齐 。 对 于 其 他 段 ， 段 表 项 的 
sh_flags 字 段 设 为 SHF_ALLOCISHF_WRITE， 表 示 可 分 配 可 读 写 ， 
sh_align 字 上 段 设 为 DISC_ALIGN， 表 示 上 段 按照 4 字 太 对 齐 。 段 表 项 的 
sh_offset、sh_addr、 和 sh_size 字 段 可 以 从 SegList 对 应 字段 取出 。 另 外 
sh_type 字 段 设置 为 SHT_PROGBITS， 表 示 段 内 数据 是 程序 数据 。 最 
后 ， 将 curOff 按 4 字 节 对 齐 。 


10) 第 116~120 行 添加 “.shstrtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比 
较 关键 的 字段 有 上段 名 “.shstrtab”、 上 段 类 型 SHT_STRTAB、 段 文件 偏 移 
curOff、 段 大 小 shstrtab.size () 、 对 齐 大 小 1 ( 即 该 段 的 文件 偏 移 不 进 
行 对 齐 ) 等 。 然 后 将 当前 段 大 小 与 curOff 累 加 、 对 齐 (后 续 文件 结构 
要 求 的 对 齐 方 式 ) ， 继 续 处 理 下 一 个 文件 结构 。 


11) 第 122~123 行 处 理 段 表 的 信息 。 首 移 将 文件 头 的 e_shoff 设 为 
curOff， 即 段 表 的 偏 移 。 然 后 将 段 表 的 大 小 与 curOff 累 加 〈 段 表 的 大 小 
= 段 表 项 个 数 x 段 表 项 大 小 ) 。 


12) 第 125~128 行 添加 “.symtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比 

较 关键 的 字段 有 上 段 名 “.symtab”、 上 段 类 型 SHT_SYMTAB、 上 段 文 件 偏 移 
curOff、 段 大 小 (符号 表 项 个 数 x 符号 表 项 大 小 ) 、sh_link 记 录 符 号 表 
使 用 的 串 表 “.strtab” 的 段 索引 、sh_info 记 录 第 一 个 全 局 符号 的 符号 索引 

(由 于 我 们 没有 在 符号 表 内 区 分 全 局 符号 的 区 域 ， 因 此 设 为 0， 这 样 链 
接 器 会 扫描 所 有 的 符号 ， 根 据 符号 的 全 局 属性 进行 符号 解析 ) 、 对 齐 
大 小 1 〈 即 该 段 的 文件 偏 移 不 进行 对 齐 ) 、 符 号 表 项 大 小 sizeof 

(Elf32_Sym) 等 。 然 后 将 当前 段 大 小 与 curOff 标 加 ， 继 续 处 理 下 一 个 
文件 结构 。 


13) 第 130~133 行 添加 “.strtab” 的 段 表 项 到 段 表 shdrTab。 其 中 比较 
关键 的 字段 有 上 段 名 “.strtab”、 段 类 型 SHT_STRTAB、 上 段 文件 偏 移 
curOff、 段 大 小 strtab.size () 、 对 齐 大 小 1 ( 即 该 段 的 文件 偏 移 不 进行 
对 齐 ) 等 。 然 后 将 当前 段 大 小 与 curOff 累 加 、 对 齐 (后 续 文件 结构 要 
求 的 对 齐 方式 ) ， 继 续 处 理 下 一 个 文件 结构 。 


14) 第 135~139 行 扫描 段 表 shdrTab， 然 后 将 每 个 段 表 项 的 sh_name 
字段 设 为 段 名 在 段 表 字符 串 表 内 的 索引 ， 完 成 段 表 信息 的 补充 。 


1 


( 
2 
3 
4 
5 


OO 


到 这 里 ， 已 经 完成 了 ELF 可 执行 文件 信息 的 组 装 。 


最 后 ， 便 是 ELF 可 执行 文件 结构 的 输出 。 


void Elf_file: :writeElf 


Linker* linker)t{ 


int padNum = 0， 
char pad[1]={0}; 


// 文 件 头 


fwrite(&ehdr,ehdr.e_ehsize,1,fout); 


/ /程序 头 表 


for(int i=0;i<phdrTab.size();++1i){ 
fwrite(phdrTab[i],ehdr.e_phentsize,1,fout); 
} 


//.text .data 

for(int i=0;i<segNames.size();++i) { 
SegList*segs=]linker->segLists[segNames[i]]; 
padNum=segs->offset - segs->begin; 
fwrite(pad,sizeof(pad),padNum,fout); 


Block*l]ast=NULL,; 
for(int j=0;j<segs->blocks.size();++j){ 
Block*block=segs->blocks[j]; 
if(last!=NULL){ 
JastEnd = last->offset + last->size; 
padNum = block->offset - lastEend; 
fwrite(pad,sizeof(pad),padNum,fout); 


fwrite(block->data,block->size,1,fout); 


} 


//.shstrtab 
padNum = shdrTab[".shstrtab"]->sh_offset 

- shdrTab[".data"]->sh_offset 

- shdrTab[".data"]->sh_size,; 
fwrite(pad,sizeof(pad),padNum,fout); 
fwrite(shstrtab.c_str(),shstrtab.size(),1,fout); 


// 段 表 


padNum = ehdr.e_shoff 
- shdrTab[".shstrtab"]->sh_offset 
- shdrTab[".shstrtab"]->sh_size; 
fwrite(pad,sizeof(pad),padNum, fout); 
for(int i=0;i<shdrNames.size();++i){ 
Elf32_Shdr*sh=shdrTab[shdrNames[i]]; 
fwrite(sh,ehdr.e_shentsize,1,fout); 


48 // 符 号 表 


49 for(int i=0;i<symNames.size();++i){ 

50 Elf32_Sym*sym=symTab[symNames[i]]; 

51 fwrite(sym,sizeof(Elf32_Sym),1,fout); 
52 } 

53 

54 //.strtab 

55 fwrite(strtab.c_ str(),strtab.size(),1,fout),; 
56 } 


1) 首先 输出 ELF 文 件 头 ehdr， 调 用 fwrite 将 该 结构 输出 到 文件 即 
可 。 


2) 第 8~11 行 输出 程序 头 表 。 


3) 第 13~29 行 输出 可 加 载 段 ， 即 代码 段 和 数据 段 的 二 进 制 内 容 。 
通过 遍历 所 有 的 可 加 载 段 名 ， 从 segLists 中 获取 合并 后 段 列 表 segs。 对 
每 一 个 segs， 计 算 offset 字 段 和 begin 字 段 的 差 值 ， 使 用 0 填充 段 列表 对 
齐 产生 的 颖 除 。 对 每 个 段 列表 segs， 通 过 遍历 段 列表 内 的 每 个 数据 块 
block， 计 算 当 前 数据 块 起 始 位 置 与 上 一 个 数据 块 last 结 束 位 置 的 差 
值 ， 即 数据 块 因为 对 齐 产生 的 颖 除 ， 并 使 用 0 填充 ， 最 后 输出 每 个 数据 
块 的 内 容 。 


过 


4) 第 31~36 行 输出 “.shstrtab” 段 。 首 先 使 用 0 填充 “.shstrtab” 段 
和 “.data" 段 因为 对 齐 产生 的 间隙 。 然 后 输出 shstrtab 保 存 的 段 名 字符 串 


5) 第 38~46 行 输出 段 表 。 首 先 使 用 0 填充 段 表 和 “.shstrtab” 段 因为 
对 齐 产 生 的 间 际 。 然 后 按照 shdrNames 保 存 的 段 名 顺序 输出 shdrTab 保 


存 的 段 表 项 内 容 。 


6) 第 48~52 行 输出 “.symtab” 段 。 只 需 按 照 symNames 保 存 的 符号 名 
顺序 输出 symTab 保 存 的 符号 表 项 内 容 即 可 。 


7) 第 54~56 行 输出 “.strtab” 段 。 只 需 输出 strtab 保 存 的 符号 名 字符 
串 内 容 即 可 。 


至 此 ， 我 们 将 可 执行 文件 的 内 容 输出 完毕 ， 完 成 了 链接 需 的 最 后 
一 步 操 作 。 使 用 readelf 命 令 ， 可 以 查看 验证 我 们 输出 的 可 执行 结构 的 
正确 性 。 

最 后 ， 油 动人 心 的 时 刻 终于 到 来 了 ! 使 用 chmod+x 命 令 为 链接 需 


输出 的 ELF 文 件 深 加 可 执行 文件 权限 ， 并 在 shell 内 执行 ， 束 可 以 看 到 
我 们 用 目 定义 语言 编写 的 代码 的 执行 效果 了 。 


7.7 ”本章 小 结 


本 章 我 们 根据 已 设计 的 链接 右 结 构 ， 分 别 从 信息 收集 、 地 址 空间 
分 配 、 符 号 解析 、 重 定位 、 可 执行 文件 生成 的 角度 描述 了 一 个 简单 的 
静态 链接 器 的 实现 。 为 外 ， 在 处 理 程序 入 口 点 的 问题 时 ， 我 们 还 讨论 
了 高 级 语言 运行 时 库 对 语言 的 重要 意义 。 


从 实现 角度 来 看 ， 链 接 右 并 不 像 编译 袁 和 汇编 圳 那样 的 语言 翻译 
程序 ， 而 更 像 ELF 文 件 的 处 理 程序 。 如 采 说 编译 器 做 的 事情 是 文本 到 
文本 的 转换 ， 那 么 汇编 右 则 征文 本 到 二 进 制 的 转换 ， 而 对 于 链接 需 则 
征 二 进 制 到 二 进 制 的 转换 。 从 编译 硕 开 始 起 步 ， 到 汇编 右 的 中 间 过 
疲 ， 最 后 到 链接 句 的 合并 收尾 ， 整 个 编译 系统 的 工作 流程 是 一 个 不 可 
分 割 的 整体 。 每 一 个 流程 都 会 对 后 续 的 操作 产生 影响 ， 每 一 个 结 采 生 
成 的 细 市 也 会 反作用 于 最 初 的 设计 。 


回顾 整个 编译 系统 实现 的 细 市 ， 我 们 发 现 除了 横向 讨论 的 编译 系 
统 实现 的 每 一 个 流程 之 外 ， 还 有 很 多 纵向 的 信息 值得 深思 。 比 如 处 理 
文法 的 目 动机 和 文法 理论 、 各 种 各 样 的 数据 结构 和 算法 、 指 令 系统 的 
设计 、 可 执行 文件 结构 等 ， 都 是 计算 机 学 科 的 热点 话题 。 笔 者 希望 通 
过 描述 一 个 相对 完整 的 编译 系统 实现 ， 帮 助 读 者 更 好 地 理解 计算 机 软 
件 的 工作 原理 ， 基 于 此 反思 计算 机 学 科 每 个 知识 领域 的 现实 意义 。 
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